Apple обходить обмеження пам’яті для ШІ-агентів на пристрої завдяки новій архітектурі

Донедавна локальні моделі штучного інтелекту (ШІ) залишалися невеликими через обмеження оперативної пам’яті (DRAM), що впливало на кількість параметрів. Це змушувало архітекторів підприємств обирати між потужними, але залежними від хмари моделями та обмеженими локальними рішеннями. Однак, третє покоління фундаментних моделей від Apple, представлене на WWDC26, долає ці обмеження, виводячи набори ваг за межі DRAM.

Сімейство AFM 3, розроблене у співпраці з Google, включає п’ять моделей: дві для локального використання та три серверні, які функціонують у межах Private Cloud Compute від Apple. Серверні моделі, зокрема AFM 3 Cloud Pro для складних завдань та агентурного використання інструментів, працюють на графічних процесорах Nvidia у хмарі Google. Локальна архітектура є розробкою Apple. AFM 3 Core Advanced — це модель з 20 мільярдами параметрів, яка зберігає ваги у флеш-пам’яті NAND, а не в DRAM.

«Замість того, щоб примусово завантажувати всю модель у DRAM, повний набір ваг зберігається у флеш-пам’яті», — зазначає команда дослідників Apple. «Оскільки пропускна здатність NAND-DRAM надто низька для обміну вагами по одному токену, як це потрібно стандартним моделям Mixture of Experts (MoE), AFM 3 Core Advanced приймає рішення щодо маршрутизації для кожного запиту».

Як працює ця архітектура

Обмеження пам’яті, яке долає Apple, є стандартною проблемою для розробників локального ШІ. «Неможливо помістити 20 мільярдів параметрів в оперативну пам’ять з прийнятною точністю», — писав Авні Ханнун, дослідник з Anthropic та колишній науковий співробітник Apple, у X. «Щоб це працювало, вони використовують досить екзотичну архітектуру за сучасними стандартами. Невелика модель прогнозує, які експерти мають бути завантажені з NAND в оперативну пам’ять на основі запиту (або промпту)».

Цей механізм передбачення та завантаження складається з трьох чітких компонентів, кожен з яких зумовлений апаратними обмеженнями споживчих пристроїв.

  • Повний набір ваг (20 мільярдів) зберігається у флеш-пам’яті, а не в DRAM. AFM 3 Core Advanced зберігає весь набір параметрів у флеш-пам’яті NAND, а не в активній пам’яті. Стандартні локальні розгортання вимагають, щоб повна модель вміщувалася в DRAM, що обмежує кількість параметрів. Підхід Apple, який вони називають Instruction-Following Pruning (IFP) і розробили власні дослідники, розглядає флеш-пам’ять як постійне сховище моделі, а DRAM — як робочий буфер для експертів, необхідних для конкретного запиту.
  • Маршрутизація експертів відбувається один раз для всього запиту, а не для кожного токена. У традиційних моделях Mixture of Experts маршрутизатор вибирає різних експертів для кожного згенерованого токена, що вимагало б постійного переміщення ваг між флеш-пам’яттю та DRAM зі швидкістю висновку. Пропускна здатність NAND-DRAM не може цього підтримувати. AFM 3 Core Advanced виконує маршрутизацію один раз під час обробки запиту, вибирає фіксований набір експертів, завантажує його в DRAM разом із постійно активними спільними експертами і генерує всі токени з цієї ж конфігурації. «Ключова відмінність від типової MoE полягає в тому, що ви робите це один раз на запит, а потім генеруєте всі токени з тими ж експертами», — зазначив Ханнун.

Кількість активних параметрів масштабується від 1 до 4 мільярдів залежно від складності завдання. Замість запуску моделі фіксованого розміру для кожного запиту, AFM 3 Core Advanced регулює кількість активованих параметрів залежно від вимог завдання — від 1 мільярда для простіших операцій до 4 мільярдів для складніших, усі з яких беруться з пулу 20 мільярдів параметрів у флеш-пам’яті.

Що Apple розкрила, а що ні

У науковій статті детально описано дизайн пам’яті та механізм розрідженої активації. Однак, менше уваги приділено практичним обмеженням розгортання.

Інструменти профілювання Apple показують час виконання, але не метрики, що визначають життєздатність виробництва. «Енергія, пропускна здатність пам’яті, тепло? У документах цього немає», — зазначив Марко Абіс, який розробляє Ziraph, профайлер для локального ШІ на Apple Silicon, у X. «Це помітний пропуск, враховуючи, що саме ці фактори визначають більшу частину продуктивності на пристрої».

Абіс також не знайшов у документації Apple — ані в Core AI docs, ані в Foundation Models docs, ані в документі про безпеку Private Cloud Compute — заяви щодо того, коли локальний запит прозоро перенаправляється на сервер, чи бачить розробник або користувач таке маршрутизацію. Для підприємств, яким необхідно документувати, де виконується висновок, це є прямою проблемою відповідності нормативним вимогам.

Не вся інформація доступна наразі. Apple повідомила, що повний технічний звіт з бенчмарками буде опубліковано пізніше цього літа.

Що це означає для архітекторів підприємств

Галузі, що підлягають регулюванню, які оцінюють розгортання агентурного ШІ, тепер мають конкретне архітектурне рішення.

  • Обмеження DRAM для локальних агентів було подолано. Підприємства, які оцінюють агентів, що мають працювати без звернень до хмари, тепер мають локальний варіант з 20 мільярдами параметрів для розгляду. Обмеження зміщується з можливостей моделі на апаратне забезпечення пристрою.

  • Межа між приватним і хмарним середовищем тепер є архітектурним рішенням, а не стандартом за замовчуванням. Простіші запити залишаються локально; складні агентурні завдання маршрутизуються до AFM 3 Cloud Pro через Private Cloud Compute. Apple публічно не уточнила, коли запит перенаправляється на сервер, чи бачить розробник це маршрутизацію — це прогалина, яка ускладнює прийняття політик для організацій, що потребують документування місця виконання висновку.

  • Серверний рівень агентурних систем залежить від Google Cloud. AFM 3 Cloud Pro працює на графічних процесорах Nvidia у Google Cloud. Гарантія Private Cloud Compute охоплює конфіденційність даних, але не усуває залежність від Google Cloud для серверного висновку.

AFM 3 Core Advanced надає підприємствам локальний варіант з 20 мільярдами параметрів, якого не існувало до WWDC26. Його масштабованість залежить від відповідей, які Apple ще не опублікувала. Ці деталі очікуються у літньому технічному звіті.

Порада від INFBusiness:

Ця новина є надзвичайно важливою для бізнесу, який прагне інтегрувати потужні локальні ШІ-рішення. Можливість запускати складні моделі ШІ безпосередньо на пристроях відкриває нові перспективи для підвищення продуктивності, безпеки даних та зменшення залежності від хмарних сервісів, що може суттєво оптимізувати витрати та покращити користувацький досвід.

Оригінал статті: venturebeat.com

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *