
Інженерні команди, що створюють програмні агентські конвеєри, отримали конкретну альтернативу з відкритим вихідним кодом для хмарних моделей, як-от Claude Fable 5. Нове рішення — Cohere North Mini Code — може працювати на одному прискорювачі H100. Компроміс полягає в тому, що ця модель, випущена у вівторок, генерує втричі більше вихідних токенів порівняно з аналогічними моделями за результатами незалежного тестування. Така надлишковість може суттєво впливати на вартість та продуктивність у масштабних промислових процесах.
Нова модель з відкритим кодом є розрідженою моделлю типу “суміш експертів” (MoE) з 30 мільярдами параметрів, де для кожного токена задіяно 3 мільярди. Вона спеціально розроблена для програмної інженерії з використанням агентних підходів, включаючи оркестрацію під-агентів, картування архітектури, рев’ю коду та виконання завдань у терміналі. Модель підтримує контекстне вікно обсягом 256 000 токенів і максимальну довжину генерації 64 000 токенів. Вона доступна на платформі Hugging Face під ліцензією Apache 2.0.
Можливості North Mini Code
North Mini Code охоплює повний спектр завдань для агентного кодування. Ось її ключові функції та апаратні вимоги:
Програмна інженерія
Cohere розробила North Mini Code спеціально для агентної програмної інженерії, а не адаптувала загальну модель. Вона має інтегровані можливості використання інструментів та підтримує “чергове мислення” (interleaved thinking), що, за даними Cohere, покращує продуктивність у багатоетапних агентних завданнях.
Картування архітектури та рев’ю коду
North Mini Code здатна аналізувати та відображати архітектуру систем, виявляти залежності та проводити рев’ю коду у великих кодових базах. Завдяки контекстному вікну обсягом 256 000 токенів, вона може обробляти значні багатофайлові проєкти за один прохід.
Термінальні агентні завдання
Модель тренована для роботи в термінальних середовищах, обробляючи взаємодії з оболонкою, скрипти пакунків та інструменти командного рядка. Cohere проводила тестування на платформі Terminal-Bench v2, яка оцінює агентів у реальних термінальних середовищах, а не лише у синтетичних завданнях генерації коду.
Процес розробки
North Mini Code — це розріджена модель типу “суміш експертів” зі 128 експертами, з яких 8 активуються для кожного токена. Вимоги до обчислень під час виведення (inference) наближаються до моделі з 3 мільярдами параметрів, попри загальну кількість у 30 мільярдів. Нік Фросс, співзасновник Cohere, демонстрував її роботу на Mac Studio через MLX з приблизно 20 ГБ оперативної пам’яті — це та сама машина, яку він використовує для власної локальної розробки коду.
Cohere тренувала модель у два етапи керованого доналаштування (supervised fine-tuning), а потім застосувала навчання з підкріпленням (reinforcement learning) з перевіреними винагородами на понад 70 000 верифікованих завдань, охоплюючи приблизно 5 000 репозиторіїв, з видаленням дублікатів відносно SWE-Bench.
Замість оптимізації під один агентний фреймворк, Cohere тренувала модель на трьох. SWE-Agent використовує багатий інтерфейс командного рядка зі спеціалізованими командами. Mini-SWE-Agent використовує один інструмент bash із сирим виведенням оболонки. OpenCode використовує інструменти з індивідуальним введенням, що повертають структурований JSON. Cohere повідомляє про 10-відсотковий приріст продуктивності в оцінці OpenCode завдяки мультифреймворковому підходу, зберігаючи при цьому продуктивність SWE-Agent.
Позиціонування на ринку
North Mini Code виходить на ринок, де вже представлені Mistral Devstral Small 2, GitHub Copilot, Cursor та Claude Fable 5. Кожен із цих продуктів має свої особливості щодо вартості та розгортання.
Cohere порівнює свою модель передусім з Mistral Devstral Small 2, щільною моделлю з 24 мільярдами параметрів. За даними внутрішніх тестів, проведених Cohere, North Mini Code демонструє в 2,8 раза вищу пропускну здатність виведення та на 30% нижчу затримку між токенами порівняно з Devstral Small 2 за однакових апаратних конфігурацій. У своїй технічній публікації на Hugging Face Cohere також стверджує, що North Mini Code перевершує моделі з відкритим вихідним кодом, які вчетверо перевищують її за кількістю параметрів, включно з моделями на 120 мільярдів параметрів, за результатами власних бенчмарків.
Artificial Analysis незалежно оцінює North Mini Code на восьме місце серед 127 порівнянних моделей з відкритими вагами за швидкістю виведення — 210 токенів за секунду, з часом до першого токена 0,25 секунди проти середнього показника класу 1,95 секунди. За індексом штучного інтелекту (Artificial Analysis Intelligence Index) модель посідає 18 місце зі 127. Проте, дані свідчать, що для завершення тестування за Intelligence Index модель згенерувала 75 мільйонів вихідних токенів, тоді як середній показник класу становить 25 мільйонів. Така надлишковість у високооб’ємних агентних конвеєрах суттєво збільшує вартість виведення та затримку.
“Раптом люди почали замислюватися: чи отримую я достатньо економічної цінності з кожного токена моделі?” — зазначив Фросс під час презентаційного відео. “Локальне розгортання — це один із способів надати людям можливості, щоб ШІ справді працював на них”.
GitHub Copilot, Cursor та Claude Code працюють за моделлю оплати за використання або за підпискою, без можливості локального розгортання. Claude Fable 5 від Anthropic, яка наразі є найпотужнішою загальнодоступною керованою моделлю для кодування, коштує 50 доларів США за мільйон вихідних токенів. Для Фросса North Mini Code є повною протилежністю Fable.
“Вона невелика, економічно ефективна, має ліцензію Apache 2.0 і може бути розгорнута локально. Ось куди мають рухатися великі мовні моделі: маленькі, з відкритим кодом, прозорі та суверенні, на противагу великим, дорогим, пропрієтарним і гегемонічним”, — написав Фросс у своєму дописі на X.
Значення для підприємств
Для команд, що створюють промислові агентні програмні конвеєри, випуск North Mini Code прояснює низку рішень, які формувалися протягом місяців.
- Спеціалізоване тренування для агентів стає базовим стандартом для оцінки. Розмежування між моделями, доналаштованими для коду, та моделями, навченими спеціально для агентних робочих процесів із перевіреними викликами інструментів та стійкістю до різних фреймворків, тепер є суттєвим фактором при виборі конвеєрів. Будь-який постачальник моделей, що претендує на можливості агентного кодування, повинен пояснити, чи використовувало його тренування перевірені агентні завдання, чи модель була адаптована з загальної основи.
- Надлишковість виведення — це прихована вартість конвеєра, яку не відображають бенчмарки. Artificial Analysis зафіксував, що North Mini Code генерує втричі більше вихідних токенів порівняно з аналогічними моделями. Така надлишковість суттєво збільшує витрати на виведення та затримку у високооб’ємних конвеєрах. Тестування пропускної здатності на реальних обсягах робочого навантаження є етапом оцінки, який бенчмарки ігнорують.
- Розподіл витрат на передовому рубежі стає реальним архітектурним рішенням. Fable 5 за 50 доларів США за мільйон вихідних токенів та North Mini Code на одному H100 являють собою справжній компроміс між контролем витрат та резидентністю даних з одного боку, та накладними витратами на керовану інфраструктуру з іншого. Командам, що використовують високооб’ємні агентні програмні конвеєри, слід змоделювати обидва варіанти витрат відповідно до їхнього реального навантаження, перш ніж робити вибір.
Порада від INFBusiness:
Випуск Cohere North Mini Code відкриває нові можливості для розробників, які прагнуть оптимізувати свої програмні агентні конвеєри. Модель з відкритим кодом, що працює локально, пропонує потенціал для значної економії коштів і кращого контролю над даними, хоча й вимагає ретельного аналізу потенційної надлишковості виведення. Ця розробка є важливим кроком для впровадження більш ефективних та доступних рішень у сфері штучного інтелекту для бізнесу.
Дізнатися більше на: venturebeat.com
