Kimi K2.7-Code: Розробники сумніваються у показниках економії токенів

### Moonshot AI представляє Kimi K2.7-Code: Новий вимір ефективності для розробників Цього тижня компанія Moonshot AI презентувала Kimi K2.7-Code – оновлену версію свого програмного забезпечення для кодування K2, що працює за принципом відкритого коду. Розробники стверджують, що ця версія забезпечує значно ефективніше мислення моделі та демонструє зростання продуктивності на двозначні відсотки. K2.7-Code базується на тій самій архітектурі “суміш експертів” (mixture-of-experts) з трильйоном параметрів, що й її попередник K2.6. Інтеграція відбувається через API, сумісний з OpenAI, що є ключовим моментом для команд, які вже використовують K2.6 у своїх виробничих системах. Варто зазначити, що коли K2.6 був випущений у квітні, він очолив тижневий рейтинг моделей для великих мов (LLM) на платформі OpenRouter. Цей рейтинг формується на основі реальних рішень розробників щодо маршрутизації API, а не на самостійно заявлених показниках ефективності. Moonshot AI заявляє, що K2.7-Code вирішує проблему “надмірного мислення”, скорочуючи використання токенів для процесу міркувань на 30% порівняно з K2.6. Таке скорочення безпосередньо вплине на витрати на виконання для команд, які використовують агентні робочі процеси. Чи буде таке підвищення ефективності підтверджено незалежними тестами, вже викликає питання у фахівців галузі. #### Що таке Kimi K2.7-Code? K2.7-Code випускається під ліцензією Modified MIT, а вагові коефіцієнти доступні на HuggingFace. Модель можна розгорнути за допомогою vLLM або SGLang. Вона працює виключно в режимі “мислення” і не підтримує регулювання температури. Moonshot AI встановила цей параметр на 1.0, що означає, що команди не можуть налаштовувати детермінізм виведення так, як це можливо з іншими моделями. Ключова відмінність K2.7-Code від K2.6 полягає у способі генерації низькорівневого коду. Якщо K2.6 створював реалізації, обгортаючи існуючі бібліотеки та використовуючи усталені фреймворки, то K2.7-Code створює реалізації безпосередньо. Moonshot AI стверджує, що це забезпечує надійнішу узагальненість для Rust, Go та Python, а також для різних типів завдань, включаючи розробку фронтенду, DevOps та оптимізацію продуктивності. За заявленими показниками ефективності, Moonshot AI відзначає зростання на 21.8% у Kimi Code Bench v2, на 11% у Program Bench та на 31.5% у MLS Bench Lite. Всі три є пропрієтарними тестами, проведеними Moonshot AI. Модель ще не була представлена для незалежного тестування DeepSWE, яке забезпечує значний розкид (70 пунктів) між моделями, на відміну від 30-пунктного розкиду SWE-Bench Pro. Це робить DeepSWE більш точним показником для команд, що налаштовують системи маршрутизації моделей.
VB Transform · 14–15 липня · Менло-Парк · Інфраструктура висновків та ШІ
GM отримав 300% зростання об’єднаних запитів на злиття (PRs) шляхом реархітектури для агентів. Ось що вони створили.
Інфраструктурний трек на Transform охоплює генерацію відео в реальному часі, стеки машинного мислення та реальні кроки для масштабування агентів в корпоративному середовищі.
Дивіться повну програму → ### Більш чесна, але слабша через це Картина за межами власних тестів Moonshot виглядає складнішою. Дослідник Елліот Арледж протестував K2.7-Code разом з K2.6 та Claude Fable 5 на KernelBench-Hard – публічному бенчмарку, зосередженому на оптимізації GPU-ядер. Він опублікував повні журнали тестування на kernelbench.com. “K2.7 є більш чесним, але не більш потужним”, – написав Арледж у X. У п’яти з шести завдань K2.7-Code створив реальні ядра Triton, тоді як K2.6 використовував обгортки бібліотек. Два з цих ядер мали помилки, спричинені самою моделлю. Результат для MoE-ядра погіршився з 0.222 (K2.6) до 0.157. “Fable, для порівняння, перевершує у кожному завданні, в якому він не зазнає поразки”, – зазначив Арледж. Сугумаран Баласябраманіян, розробник, який створив маршрутизатор завдань для платформи Hermes Agent, використовуючи DeepSWE як орієнтир, публічно відреагував на випуск K2.7-Code і кинув виклик Moonshot AI щодо вибору бенчмарків. “З усією повагою, кожна модель ‘покращує’ свої показники на двозначні відсотки у власному наборі тестів”, – написав Баласябраманіян у X. Він зазначив, що K2.6 отримав 24% на DeepSWE, зрівнявшись з GPT-5.4-mini, і запитав, чи буде Moonshot AI подавати K2.7-Code на той самий тест. Баласябраманіян додав, що йому знадобилося 13 раундів перегляду, щоб правильно отримати дані для свого маршрутизатора, і що він би спрямовував завдання з кодування до K2.7-Code, якби незалежні показники були підтверджені. ### Що це означає для підприємств Підвищення ефективності використання токенів є негайно доступним. Команди, які використовують K2.6 у виробництві, можуть замінити його на K2.7-Code через сумісний з OpenAI API та очікувати зниження витрат на виконання в агентних робочих процесах без зміни архітектури. Зменшення використання токенів на 30% – це показник самої Moonshot, але шлях інтеграції є достатньо низькоризикованим для тестування на власних робочих навантаженнях перед прийняттям остаточного рішення. Практичне питання полягає в тому, чи збережеться ця ефективність при власному розподілі завдань команди. Тестування K2.7-Code на власних робочих навантаженнях перед коригуванням ваг шлюзу є найменш ризикованим способом дізнатися це. — **Порада від INFBusiness:** Нове оновлення Kimi K2.7-Code від Moonshot AI може стати значним кроком для компаній, що активно використовують моделі для кодування. Його потенціал для зниження витрат на обчислення та підвищення ефективності агентних систем робить його привабливим варіантом. Однак, враховуючи неоднозначні результати незалежних тестів, рекомендується ретельно протестувати модель на ваших специфічних завданнях, перш ніж впроваджувати її у виробничі процеси.
За матеріалами: venturebeat.com
