NousCoder-14B від Nous Research: відкритий код для розробників, що конкурує з Claude Code

Nous Research, стартап у сфері штучного інтелекту з відкритим кодом, за підтримки венчурної криптофірми Paradigm, представив новий інструмент для змагального програмування. Компанія стверджує, що ця модель, розроблена лише за чотири дні з використанням 48 найсучасніших графічних процесорів Nvidia B200, перевершує або дорівнює продуктивності багатьох великих комерційних систем.
Модель під назвою NousCoder-14B виходить на насичений ринок помічників зі створення коду. Її поява особливо актуальна на тлі нещодавнього ажіотажу навколо Claude Code — інструменту від конкурента Anthropic, який з Нового року домінує в обговореннях розробників у соціальних мережах, які діляться захопленими відгуками про його можливості. Ці одночасні події підкреслюють стрімкий розвиток розробки програмного забезпечення за допомогою ШІ та жорстку конкуренцію між компаніями, що прагнуть зайняти лідерство в тому, що багато хто вважає основоположною технологією майбутнього програмування.
Згідно з технічним звітом Nous Research, опублікованим разом із релізом, NousCoder-14B досягає 67,87% точності на платформі LiveCodeBench v6. Цей стандартний тест оцінює моделі на завданнях змагального програмування, опублікованих з серпня 2024 року по травень 2025 року. Цей показник на 7,08% вищий, ніж у базової моделі Alibaba Qwen3-14B, на основі якої було проведено навчання.
«Я надав Claude Code опис проблеми, і він згенерував те, що ми створили минулого року, за годину», — написала Джаана Доган, головний інженер Google, відповідальна за Gemini API, у вірусному пості в X минулого тижня. Її допис влучно передав настрій спільноти щодо інструментів для програмування на базі ШІ. Доган описувала систему оркестрації розподілених агентів, над якою її команда працювала рік — систему, яку Claude Code відтворив на основі триабзацного запиту.
Це порівняння є показовим: тоді як Claude Code від Anthropic захоплює уяву демонстраціями повноцінної розробки програмного забезпечення, Nous Research робить ставку на те, що відкриті альтернативи, навчені на верифікованих завданнях, зможуть скоротити розрив. Компанія вважає, що прозорість у процесі створення моделей є не менш важливою, ніж їхня безпосередня потужність.
Як Nous Research створила модель для програмування, яку може відтворити кожен
Що відрізняє реліз NousCoder-14B від багатьох оголошень конкурентів, так це її радикальна відкритість. Nous Research опублікувала не лише ваги моделі, а й повне середовище навчання з підкріпленням, набір тестів та інструментарій для навчання, побудований на фреймворку компанії Atropos. Це дає можливість будь-якому досліднику з достатніми обчислювальними ресурсами відтворити або розширити цю роботу.
«Відкриття стеку Atropos забезпечує необхідну інфраструктуру для досліджень у галузі міркувань олімпійського рівня з можливістю відтворення», — зазначив один з користувачів у X, підкреслюючи важливість цього кроку для академічної та відкритої спільноти.
Навчання моделі проводив Джо Лі, дослідник Nous Research та колишній учасник змагань з програмування. Його технічний звіт розкриває несподівано особистий вимір: він порівнював траєкторію вдосконалення моделі зі своїм власним прогресом на Codeforces, платформі для змагального програмування, де учасники отримують рейтинг залежно від результатів змагань.
Ґрунтуючись на приблизних оцінках, що співставляють показники LiveCodeBench з рейтингами Codeforces, Лі розрахував, що прогрес NousCoder-14B — від приблизного діапазону рейтингу 1600–1750 до 2100–2200 — дзеркально відображає стрибок, який сам Лі здійснив за майже два роки наполегливих тренувань у віці від 14 до 16 років. Модель досягла еквівалентного результату за чотири дні.
«Спостерігати за останнім тренувальним циклом було досить сюрреалістичним досвідом», — написав Лі у технічному звіті.
Однак Лі швидко зазначив важливий нюанс, який стосується ширших питань ефективності ШІ: він вирішив приблизно 1000 завдань за ці два роки, тоді як моделі знадобилося 24 000. Люди, принаймні наразі, залишаються значно ефективнішими учнями з точки зору використання даних.
Система навчання з підкріпленням, яка тренується на 24 000 задачах змагального програмування
Процес навчання NousCoder-14B дає уявлення про дедалі складніші методи, які використовують дослідники для вдосконалення можливостей ШІ в галузі міркувань за допомогою навчання з підкріпленням.
Цей підхід покладається на те, що дослідники називають «верифікованими винагородами» — систему, в якій модель генерує розв’язки коду, ці розв’язки виконуються на тестових прикладах, а модель отримує простий бінарний сигнал: правильно чи неправильно. Цей цикл зворотного зв’язку, хоч і простий за концепцією, потребує значної інфраструктури для виконання у великих масштабах.
Nous Research використовувала Modal, платформу хмарних обчислень, для паралельного виконання коду в ізольованому середовищі. Кожне з 24 000 навчальних завдань містить у середньому сотні тестових прикладів, і система повинна перевіряти, чи генерує код правильні результати в межах часових обмежень (15 секунд) та обмежень пам’яті (4 гігабайти).
У навчанні використовувалася техніка DAPO (Dynamic Sampling Policy Optimization), яка, за результатами експериментів дослідників, показала дещо кращі результати, ніж альтернативи. Ключовим нововведенням є «динамічна вибірка» — відкидання навчальних прикладів, де модель або вирішує всі спроби, або не вирішує жодної, оскільки такі приклади не надають корисного сигналу градієнта для навчання.
Дослідники також застосували «ітеративне розширення контексту», спочатку навчаючи модель із вікном контексту 32 000 токенів, а потім розширюючи його до 40 000 токенів. Під час оцінки подальше розширення контексту до приблизно 80 000 токенів дало найкращі результати, досягнувши точності 67,87%.
Можливо, найважливішим є те, що конвеєр навчання поєднує виведення та верифікацію: щойно модель генерує розв’язок, вона починає працювати над наступним завданням, поки попередній розв’язок перевіряється. Ця конвеєризація, у поєднанні з асинхронним навчанням, коли кілька екземплярів моделі працюють паралельно, максимізує використання обладнання на дорогих GPU-кластерах.
Незворотна нестача даних, яка може сповільнити прогрес моделей ШІ для кодування
У технічному звіті Джо Лі приховано висновок, який має значні наслідки для майбутнього розвитку ШІ: навчальний набір даних для NousCoder-14B охоплює «значну частину всіх доступних, верифікованих задач змагального програмування у стандартизованому форматі».
Іншими словами, для цієї конкретної галузі дослідники наближаються до межі якісних навчальних даних.
«Загальна кількість задач змагального програмування в Інтернеті має приблизно такий самий порядок величини», — написав Лі, маючи на увазі 24 000 завдань, використаних для навчання. «Це свідчить про те, що в домені змагального програмування ми досягли меж високоякісних даних».
Це спостереження перегукується зі зростаючим занепокоєнням у всій галузі ШІ щодо обмежень даних. Тоді як обчислювальні потужності продовжують масштабуватися відповідно до загальновідомих економічних та інженерних принципів, навчальні дані стають «дедалі більш обмеженими», як висловився Лі.
«Здається, деякі з найважливіших досліджень, які необхідно провести в майбутньому, будуть у сферах генерації синтетичних даних та ефективних алгоритмів і архітектур з точки зору використання даних», — підсумував він.
Цей виклик є особливо гострим для змагального програмування, оскільки ця галузь потребує завдань із відомими правильними розв’язками, які можна автоматично перевірити. На відміну від завдань з обробки природної мови, де достатньо людської оцінки або проксі-метрик, код або працює, або ні — що робить генерацію синтетичних даних значно складнішою.
Лі визначив один потенційний напрямок: навчання моделей не лише розв’язувати завдання, а й генерувати розв’язувані завдання, що дозволить реалізувати форму самонавчання, подібну до технік, які виявилися успішними в системах ШІ для ігор. «Щойно буде вирішено проблему генерації завдань, самонавчання стане дуже цікавим напрямком», — зазначив він.
Інвестиція у 65 мільйонів доларів у ставку на те, що відкритий ШІ зможе конкурувати з великими технологічними компаніями
Nous Research зайняла унікальну позицію в ландшафті ШІ: компанія, віддана публікації відкритих рішень, які конкурують — а іноді й перевершують — комерційні альтернативи.
Компанія залучила 50 мільйонів доларів у квітні 2025 року в раунді, який очолила Paradigm, венчурна фірма, що спеціалізується на криптовалютах і заснована співзасновником Coinbase Фредом Ерсамом. Загальне фінансування сягнуло 65 мільйонів доларів, згідно з деякими повідомленнями. Ця інвестиція відображає зростаючий інтерес до децентралізованих підходів до навчання ШІ, де Nous Research розробила свою платформу Psyche.
Серед попередніх релізів — Hermes 4, сімейство моделей, яке, як ми повідомляли, «перевершує ChatGPT без обмежень щодо контенту», та DeepHermes-3, яку компанія описала як першу «вмикнену» модель міркувань — що дозволяє користувачам активувати розширені можливості мислення за вимогою.
Компанія культивує виразну естетику та спільноту, що викликає певний скептицизм щодо того, чи стиль не затьмарює сутність. «Звісно, я повірю компанії з аніме-аватаром. Припиніть оптимізувати для бенчмарків, благаю», — написав один критик у X, маючи на увазі брендинг Nous Research в стилі аніме та галузеву практику оптимізації під показники тестів.
Інші ставили технічні питання. «Виходячи з бенчмарку, Nemotron кращий», — зазначив один коментатор, посилаючись на сімейство мовних моделей Nvidia. Інший запитав, чи є NousCoder-14B «орієнтованим на агентність чи просто „одноразовим“ кодуванням» — різниця, яка має значення для практичної розробки програмного забезпечення, де ітерація зі зворотним зв’язком зазвичай дає кращі результати, ніж одноразові спроби.
Що, на думку дослідників, має статися далі, щоб інструменти для кодування на основі ШІ продовжували вдосконалюватися
Реліз містить кілька напрямків для майбутньої роботи, які натякають на те, куди може прямувати дослідження ШІ у сфері кодування.
На першому місці — багаторазове навчання з підкріпленням. Наразі модель отримує лише фінальну бінарну винагороду — успіх або невдача — після генерації розв’язку. Однак завдання змагального програмування зазвичай містять публічні тестові приклади, які надають проміжний зворотний зв’язок: помилки компіляції, неправильні результати, перевищення ліміту часу. Навчання моделей враховувати цей зворотний зв’язок протягом кількох спроб може значно покращити продуктивність.
Контроль довжини відповіді також залишається викликом. Дослідники виявили, що неправильні розв’язки, як правило, довші за правильні, а довжина відповідей швидко насичувала доступні контекстні вікна під час навчання — шаблон, який різні алгоритмічні модифікації не змогли вирішити.
Можливо, найамбітнішим є запропонований Лі «генерація завдань та самонавчання» — навчання моделей як розв’язувати, так і створювати завдання для програмування. Це безпосередньо вирішить проблему дефіциту даних, дозволивши моделям генерувати власні навчальні навчальні плани.
«Люди чудово генерують цікаві та корисні завдання для інших учасників змагань з програмування, але, схоже, ще існує значний розрив у можливостях великих мовних моделей у творчій генерації завдань», — написав Лі.
Модель доступна зараз на Hugging Face під ліцензією Apache 2.0. Для дослідників та розробників, які бажають розвивати цю роботу, Nous Research опублікувала повний стек для навчання Atropos разом з нею.
Те, що Джо Лі знадобилося два роки підліткової відданості для досягнення — піднявшись від новачка рівня 1600 до конкурента з рейтингом 2100 на Codeforces — ШІ відтворив за 96 годин. Йому знадобилося 1000 завдань. Моделі — 24 000. Але вже незабаром ці системи можуть навчитися писати власні завдання, навчати себе та взагалі залишити позаду людські бенчмарки.
Питання вже не в тому, чи зможуть машини навчитися кодувати. Питання в тому, чи скоро вони стануть кращими вчителями, ніж ми коли-небудь були.
Порада від INFBusiness:
NousCoder-14B — це значний прорив у галузі відкритих моделей для програмування. Якщо ви розробник, який шукає потужні інструменти для підвищення продуктивності, або дослідник, зацікавлений у передових методах навчання ШІ, ця модель та пов’язаний з нею інструментарій надають унікальну можливість для вивчення, відтворення та вдосконалення. Відкритість проекту робить його цінним ресурсом для всієї спільноти розробників.
За даними порталу: venturebeat.com
