Розкрито секрет: експерти створили потужну модель з нуля за $1500

Sapient пропонує революційний підхід до створення мовних моделей: HRM-Text замість “грубої сили”
Розробка великої мовної моделі (LLM) з нуля зазвичай вимагає значних інвестицій у мільйони доларів та доступу до величезних обсягів даних масштабу інтернету, що робить цей процес недоступним для більшості підприємств. Компанія Sapient представила інноваційний, значно дешевший шлях для досягнення цієї мети.
Щоб подолати догму “грубої сили” масштабування, дослідники Sapient розробили HRM-Text. Ця модель використовує Ієрархічну Рекурентну Модель (HRM) замість стандартних Трансформерів. Архітектуру HRM було вперше представлено минулого року, і вона вирізняється винятковою ефективністю використання даних.
Ключові переваги HRM-Text
- Ефективність обчислень: HRM розділяє обчислення на шари, що повільно еволюціонують (стратегічні) та швидко еволюціонують (виконавчі). Замість безпосереднього прогнозування наступного токена на сирих текстових даних, HRM-Text навчається виключно на парах “інструкція-відповідь”. Такий підхід максимально наближений до реальних сценаріїв використання у підприємствах, де користувачі очікують отримати конкретну відповідь на поставлене завдання.
- Економія ресурсів: Дослідникам вдалося навчити HRM-Text з 1 мільярдом параметрів з нуля, витративши значно менше коштів і токенів порівняно зі звичайними LLM. Модель продемонструвала конкурентоспроможну продуктивність з набагато більшими відкритими моделями на ключових галузевих бенчмарках.
- Доступність для бізнесу: Це означає, що фундаментальне попереднє навчання моделей більше не обмежується установами з надлишковими ресурсами. За допомогою HRM-Text організації можуть доступно попередньо навчити власні високопродуктивні моделі для міркування з нуля та інтегрувати їх із зовнішніми базами знань.
Вузьке місце навчання LLM
Під час тренування LLM насправді не хвилює, чи модель запам’ятала точну послідовність слів з випадкового допису на Reddit за 2014 рік. Нас цікавить, щоб модель розвинула глибоке, фундаментальне розуміння людської мови, логіки, фактів та здатності до міркування.
Поточний підхід полягає у “грубій силі”: зібрати весь інтернет, виконати трильйони прогнозів наступного токена і сподіватися, що модель виробить робочу внутрішню модель світу.
По суті, це означає, що ми марнуємо мільйони доларів обчислювальних ресурсів, змушуючи моделі запам’ятовувати все, що зібрано з інтернету, лише для того, щоб вони опосередковано навчилися мислити. Наприклад, стандартні моделі-декодери витрачають цінний обчислювальний час на визначення втрат для реконструкції самого запиту, хоча запит користувача вже відомий і надається під час висновку.
Замість того, щоб розглядати це просто як обчислювальний бар’єр, індустрія має усвідомити це як серйозне бізнес-обмеження. У коментарях для VentureBeat Гуань Ван, генеральний директор Sapient Intelligence, охарактеризував це як проблему “економіки ітерацій”.
«Підприємства сьогодні стикаються з трьома сукупними проблемами: навчання є дорогим, інфраструктура громіздка, а цикли експериментування надто повільні», — зазначив Ван. «Промислова залежність від масштабування каже: «Коли модель не працює, зробіть її більшою. Додайте більше даних. Додайте більше GPU». Це працювало, але досягає точки зменшення віддачі. Більший масштаб часто означає більше запам’ятовування, більше затримок, більше інфраструктури та більшу залежність від постачальника. Це не обов’язково дає підприємству кращий механізм міркування».
Ця архітектурна та обчислювальна неефективність пояснює, чому доналаштування існуючих щільних Трансформерів не завжди є панацеєю для підприємств. Додаткове навчання для збереження загальних можливостей моделі часто вимагає змішування значного обсягу загальних даних у процес, що робить його обчислювально витратним і складним для контролю.
«Уявіть хедж-фонд, страхову компанію або банк, які мають дуже пропрієтарні дані: внутрішні дослідницькі нотатки, логіку транзакцій, правила відповідності, меморандуми аналітиків, моделі ризику, обмеження портфеля», — зазначив Ван. «Вони можуть не захотіти надсилати ці дані до зовнішньої передової моделі, і їм може не знадобитися величезна модель загального призначення, яка запам’ятала інтернет. Їм потрібне компактне ядро міркування, яке може вивчити структуру їхнього завдання, міркувати за правилами та числами і працювати в контрольованому середовищі».
Оскільки HRM-Text зосереджує свої обчислення виключно на виконанні завдань та прихованих міркуваннях, він дозволяє підприємствам почати з меншої, “розумнішої” моделі та адаптувати її до пропрієтарної області з набагато меншою інфраструктурою.
Переосмислення архітектур за допомогою HRM-Text
HRM, представлена у 2025 році, знаменує фундаментальний відхід від традиційних моделей Трансформерів. Для створення більш ефективного рушія, що потребує менше даних, HRM розділяє обчислення на шари, що повільно еволюціонують (стратегічні), та шари, що швидко еволюціонують (виконавчі). Швидкий L-модуль виконує локальне ітеративне уточнення, тоді як повільний H-модуль підтримує стабільний семантичний контекст протягом циклів. Обробка складається з двох високорівневих циклів, де кожен цикл виконує три швидкі оновлення L-модуля, за якими слідує одне повільне оновлення H-модуля.

Хоча стандартні рекурентні архітектури зі спільними параметрами (як TRM від Samsung) іноді можуть впоратися з невеликими логічними задачами, дослідники Sapient виявили, що вони стають надзвичайно нестабільними при масштабуванні до мільярда параметрів для мовних завдань. Розділення повільного H-модуля та швидкого L-модуля в HRM є математично необхідним, а не просто естетичним вибором. Як зазначив Ван: «Для логічних сіток іноді можна обійтися крихітним рекурентним механізмом, тому що світ чистий і обмежений. Мова не така. Мові потрібні як швидке локальне уточнення, так і повільна семантична стабільність».
Тоді як оригінальний HRM виявився надзвичайно ефективним для контрольованих, символічних завдань міркування, дослідники зіткнулися зі стіною при застосуванні його до величезних, нескінченних складнощів загального мовного моделювання. Петлі HRM роблять її неймовірно ефективним мислителем, але ті ж петлі роблять її математично волатильною для тренування на різноманітному хаосі людської мови. Виконання рекурентних петель на мові створює величезну математичну нестабільність, зокрема, вибухові або зникаючі градієнти.

Щоб запобігти цьому циклу зворотного зв’язку в нейронній мережі, дослідники впровадили дві ключові архітектурні інновації в HRM-Text. По-перше, вони розробили MagicNorm — спеціалізовану техніку нормалізації, призначену для стабілізації внутрішніх сигналів, незалежно від того, скільки разів модель повторює свій процес мислення. По-друге, вони розробили метод “розігріву” для стабілізації навчання. На ранніх етапах навчання модель оцінюється лише на коротких, поверхневих циклах міркувань. У міру прогресу навчання система “розігрівається”, поступово надаючи моделі глибші та довші послідовності міркувань.
Вони також змінили мету навчання з прогнозу наступного токена на завершення завдання, де модель винагороджується лише за повну відповідь, а не за окремі згенеровані токени. Для досягнення цієї мети вони змінили навчальні дані HRM-Text з необробленого тексту виключно на пари “інструкція-відповідь”.
HRM-Text у дії
Дослідники створили надзвичайно компактну модель HRM-Text з 1 мільярдом параметрів. Замість використання стандартного багатоетапного конвеєра, який вимагає обробки трильйонів слів необробленого інтернет-тексту, вони навчали її з нуля на ретельно відібраному наборі даних обсягом лише 40 мільярдів токенів. Навчальні дані складалися виключно з пар “інструкція-відповідь” для загальних інструкцій, математики, символічної логіки, вправ з підручників та переписаних знань.
Модель навчалася з використанням мети завершення завдання. Щоб змусити модель покладатися на свою внутрішню ієрархічну архітектуру, а не копіювати покрокову логіку, вони спеціально вилучили “думки” (tokens, що представляють процес міркування) з навчальних даних.
Модель була оцінена за різноманітним набором стандартних бенчмарків фундаментального штучного інтелекту, з акцентом на знання, міркування, логіку, математику та розуміння. Дослідники протестували HRM-Text як проти невеликих моделей, так і проти високоресурсних моделей з відкритими вагами та повністю відкритих моделей.
Результати демонструють значний зсув у співвідношенні обчислень до продуктивності. HRM-Text з 1 мільярдом параметрів досягла 60.7% на MMLU, 84.5% на GSM8K та 56.2% на MATH. Ця продуктивність є дуже конкурентоспроможною (і в кількох випадках перевершує) моделі з 2-7 мільярдами параметрів, проти яких вона тестувалася.

Найважливіший висновок для корпоративної аудиторії полягає в статистиці ефективності та практичних наслідках. Попереднє навчання фундаментальної моделі з нуля зазвичай є проєктом вартістю в мільйони доларів, зарезервованим для технологічних гігантів. HRM-Text навчалася лише 1.9 дня на кластері з 16 GPU. Загальна оціночна вартість обчислень становила приблизно 1500 доларів США (близько 58 500 ₴ за поточним курсом). Вона досягла конкурентоспроможних показників, використовуючи в 100-900 разів менше навчальних токенів і в 96-432 рази менше оцінених обчислень, ніж такі моделі, як Qwen, Gemma та Llama.
Ще один важливий момент — це відокремлення міркування від запам’ятовування знань. З практичної точки зору, успіх HRM-Text у завданнях, що вимагають складних міркувань, незважаючи на її крихітний навчальний набір даних обсягом 40 мільярдів токенів, доводить, що моделі не потрібно запам’ятовувати весь інтернет, щоб стати “розумним” рушієм міркувань.
Для корпоративних застосувань така поведінка є перевагою, а не недоліком. Дослідники пропонують майбутнє, де бізнеси розгортатимуть компактні, неймовірно дешеві рекурентні моделі, що діють як “ядро міркування”, спеціалізоване для бізнес-логіки. Замість того, щоб змушувати модель запам’ятовувати корпоративні бази даних під час попереднього навчання, модель виступає як рушій міркувань, покладаючись на зовнішні системи пошуку для отримання фактичних знань.
Критики зазначають, що навчання на парах “інструкція-відповідь” робить порівняння з моделями, навченими на сирих даних, “некоректним” (“яблука проти апельсинів”). Ван відкидає це твердження, вказуючи, що кожна сучасна LLM стикається з даними “інструкція-відповідь” під час навчання або вирівнювання. “Отже, порівняння не є некоректним. Воно ближче до порівняння “серцевини яблука” та “яблука”. Ми почали безпосередньо з основного формату завдання, тому що саме так люди насправді використовують моделі: вони дають інструкцію і очікують корисну відповідь”, — сказав він.
Дослідники також провели ретельні тести на забруднення даних, щоб переконатися, що модель не просто запам’ятовувала відповіді з бенчмарків. На DROP, єдиному бенчмарку, який показав незначний сигнал забруднення за певного налаштування, HRM-Text все одно продемонструвала вражаючі 81.1% на строго чистому підмножині з 0% забруднення.
Зрештою, Ван стверджує, що для підприємств “правильною оцінкою є не перевірка знань. Це оцінка робочого процесу… Дайте HRM-Text завдання, таке як: багатоетапні фінансові міркування, логіка відповідності, автоматизація наукових робочих процесів, структуроване вилучення з подальшим міркуванням”.
Практична реалізація та майбутнє корпоративного ШІ
Хоча показники бенчмарків та ефективність витрат вражають, Sapient чітко визначає поточні межі моделі. Початковий реліз слід розглядати як доказ концепції, подібний до ранніх релізів GPT, розроблений для демонстрації унікальних переваг архітектури.
«Чесно кажучи, HRM-Text — це ще не заміна ChatGPT “під ключ”», — зазначив Ван. «Це компактна базова мовна модель для міркувань. Для інженерної команди підприємства операційна робота в основному стосується шаблонів, вибору режиму, маскування уваги та вирівнювання».
Для інженерних команд, які займаються ШІ та прагнуть експериментувати, початок роботи вимагає певної специфічної, але стандартної дисципліни генерації тексту. Модель має нативну підтримку в бібліотеці Transformers (потрібна версія transformers >= 5.9.0), і активно розробляються шляхи використання для vLLM та SGLang. Основне інженерне завдання полягає в управлінні дизайном PrefixLM: виробничі багатооборотні чат-додатки вимагатимуть ретельної логіки KV-кешу, щоб забезпечити повну двосторонню увагу запитам користувачів, тоді як вивід асистента залишатиметься причинним.
«Коли вартість навчання здатного рушія міркувань падає приблизно до 1500 доларів США (близько 58 500 ₴), ШІ перестає бути лише питанням інфраструктури і стає питанням стратегії», — зазначив Ван. «Компанія зі списку Fortune 500 більше не запитує: «Чи можемо ми дозволити собі фундаментальну модель?» Вона запитує: «Що повинна знати наша модель про наш бізнес і для якого типу міркування її слід оптимізувати?»
Порада від INFBusiness:
Ця розробка є надзвичайно важливою для українського бізнесу. Можливість створювати потужні моделі ШІ з нуля за значно менших витрат відкриває нові горизонти для компаній будь-якого розміру. HRM-Text від Sapient може стати ключовим інструментом для автоматизації процесів, покращення аналітики та розробки інноваційних рішень, адаптованих до специфічних потреб українського ринку, без необхідності значних капіталовкладень, які раніше були вимогою.
За даними порталу: venturebeat.com
