Чому мініатюрний VibeThinker-3B від Weibo знову розпалив суперечки про бенчмарки в світі ШІ

Нещодавно команда з дев’яти дослідників з Sina Weibo — китайського гіганта соціальних мереж, більш відомого своєю платформою для мікроблогінгу, ніж передовими штучними інтелектами — опублікувала на arXiv 14-сторінкову технічну доповідь, яка викликала справжній фурор у спільноті ШІ-досліджень. Їхнє твердження: мовна модель із лише 3 мільярдами параметрів може відповідати або перевершувати показники продуктивності флагманських систем від Google DeepMind, OpenAI, Anthropic та DeepSeek, які в сотні разів більші.
Модель, названа VibeThinker-3B, отримала 94,3 бали на AIME 2026 — американському престижному математичному іспиті, одному з найскладніших стандартизованих змагань з математики у світі. Цей показник ставить її в один ряд із DeepSeek V3.2, моделлю з 671 мільярдом параметрів, і вище за Gemini 3 Pro, високоефективну флагманську систему Google для аналітичних завдань, яка набрала 91,7 бала. Завдяки техніці масштабування під час тестування, яку команда називає “Оцінка надійності на рівні тверджень” (Claim-Level Reliability Assessment), показник зростає до 97,1, випереджаючи практично кожну систему, задокументовану публічно.
Протягом кількох годин після публікації стаття зібрала 62 схвальні відгуки на стрічці щоденних публікацій Hugging Face, репозиторій моделі накопичив 130 вподобань, а репозиторій GitHub досяг 685 зірок. Однак реакція в соціальних мережах не була одностайно святковою. У багатьох випадках вона була глибоко скептичною.
“ЩО, ЧОРТ ЗАБИРАЙ, відбувається в ШІ?” — написав користувач @orcus108 у X, опублікувавши допис, який набрав понад 161 000 переглядів. “3-мільярдна модель щойно показала результати в кодуванні на рівні Claude Opus 4.5… Я щиро не знаю, чи це прорив, чи бенчмарки зламані”.
Ця напруга — між справжнім науковим прогресом і зростаючою підозрою, що бенчмарки ШІ стали настільки гнучкими, що втратили своє значення, — лежить в основі історії VibeThinker-3B. І відповідь на це питання надзвичайно важлива, не лише для академічних прав, а й для багатомільярдної дилеми: чи є невпинне прагнення індустрії ШІ до все більших моделей єдиним шляхом до інтелекту?
Оцінки бенчмарків, що суперечать законам масштабу сучасного ШІ
Результати, представлені в технічній доповіді, за будь-якими стандартними мірками є надзвичайними.
У математичному аспекті VibeThinker-3B досягла 91,4 бала на AIME 2025, 94,3 на AIME 2026, 89,3 на HMMT 2025 (Математичний турнір Гарварду та Массачусетського технологічного інституту), 93,8 на BruMO 2025 (Математична олімпіада Браунського університету) та 76,4 на IMO-AnswerBench — бенчмарку, що складається з 400 завдань рівня Міжнародної олімпіади з математики. У кодуванні модель показала 80,2 Pass@1 на LiveCodeBench v6, бенчмарку, розробленому для тестування генерації виконуваного коду, та досягла 96,1% рівня прийняття рішень на невідомих тижнях і двотижневих конкурсах LeetCode з кінця квітня до кінця травня 2026 року. Щодо виконання інструкцій, вона набрала 93,4 бала на IFeval.
Щоб зрозуміти масштаб розбіжностей у кількості параметрів: DeepSeek V3.2 має 671 мільярд параметрів — приблизно у 224 рази більше, ніж VibeThinker-3B. GLM-5 від Zhipu AI має 744 мільярди параметрів. Kimi K2.5 від Moonshot AI перевищує 1 трильйон. 3 мільярди параметрів VibeThinker-3B могли б працювати на звичайному ноутбуці.
Дослідники представляють цей результат не як аномалію, а як доказ ширшої теоретичної тези. Вони вводять так звану “Гіпотезу параметричного стиснення-покриття” (Parametric Compression-Coverage Hypothesis), яка стверджує, що різні типи можливостей ШІ мають фундаментально різні зв’язки з розміром моделі. Перевірюваний аналіз — той, що тестується на математичних змаганнях та завданнях з кодування, де відповіді можна однозначно перевірити — є тим, що в статті називається “параметрово-щільна” здатність: така, що може бути стиснута до компактного ядра. Навпаки, знання у відкритому домені є “параметрово-експансивними”, що вимагає широкого охоплення фактів, концепцій та виняткових випадків, що неминуче вимагає більшої кількості параметрів.
Стаття безпосередньо визнає цю відмінність. На GPQA-Diamond, бенчмарку наукових знань рівня аспірантури, VibeThinker-3B набрала лише 70,2 бала — значно нижче, ніж 91,9, досягнуті Gemini 3 Pro, і 87,0, досягнуті Claude Opus 4.5. Автори пишуть, що цей розрив “відповідає нашій гіпотезі, а не суперечить їй: головний висновок полягає не в тому, що 3-мільярдна модель повністю замінила провідні загального призначення моделі, а в тому, що невелика модель може досягти першокласної продуктивності в багатьох завданнях, що вимагають перевірюваного аналізу”.
Чотириетапний конвеєр навчання, що живить крихітний аналітичний двигун
VibeThinker-3B не створювалася з нуля. Вона проходить подальше навчання на основі Qwen2.5-Coder-3B, компактної базової моделі від команди Alibaba Qwen, за допомогою того, що дослідники ШІ з Weibo називають “Принципом спектру до сигналу” (Spectrum-to-Signal Principle) — багатоетапного конвеєра, вперше представленого в попередній роботі команди VibeThinker-1.5B у листопаді 2025 року.
Навчання відбувається у чотири основні фази. Перша — це двоетапний процес керованого доналаштування (supervised fine-tuning), який використовує навчальну програму: модель спочатку навчається на широкій суміші даних з математики, коду, STEM-аналізу, загального діалогу та виконання інструкцій, а потім переходить до відібраної підмножини складніших завдань з тривалим горизонтом аналізу. На другому етапі відкидаються зразки з довжиною траєкторії аналізу менше 5000 токенів, а завдання, які VibeThinker-1.5B може вирішити більш ніж у 75% випадків, фільтруються, змушуючи модель зосередитися на справді складних викликах.
Друга фаза застосовує навчання з підкріпленням (reinforcement learning) у кількох доменах — математика, код та STEM — за допомогою алгоритму MaxEnt-Guided Policy Optimization (MGPO) команди, який пріоритезує навчання на завданнях на межі поточних можливостей моделі, а не на завданнях, які вона вже легко вирішує або вважає неможливими. Примітно, що команда виявила: стратегія, яка добре працювала при масштабі 1.5B — поступове розширення контекстного вікна під час навчання з підкріпленням — насправді погіршила продуктивність при 3B. Вони висунули гіпотезу, що сильніший початковий чекпойнт означав, що скорочення траєкторій аналізу під час розігріву більше не видаляло шум, а порушувало дійсні патерни аналізу. Рішенням було навчання з єдиним контекстним вікном у 64 000 токенів протягом усього процесу.
У рамках математичної фази навчання з підкріпленням команда також впроваджує так званий “Long2Short Math RL” — вторинний етап оптимізації, який перерозподіляє винагороди, щоб віддати перевагу коротшим правильним розв’язкам над довшими, зменшуючи багатослівність без шкоди для точності. Цей метод використовує перерозподіл винагород з нульовою сумою, який уникає зміщення загального сигналу винагороди, одночасно спонукаючи модель до більш ефективного аналізу.
Третя фаза витягує високоякісні траєкторії аналізу з чекпойнтів, навчених за допомогою навчання з підкріпленням, і переносить їх назад в єдину модель через кероване доналаштування. Команда використовує “оцінку навчального потенціалу” (learning-potential score) — по суті, перплексію моделі-студента на кожній траєкторії вчителя — для пріоритезації траєкторій, які є правильними, але які студент ще не інтерналізував. Фінальна фаза, що називається Instruct RL, застосовує навчання з підкріпленням до завдань з виконання інструкцій, використовуючи комбінацію валідаторів на основі правил для обмежень формату та моделей винагород на основі критеріїв для оцінки відкритої якості.
Франческо Бертоллотті, дослідник ШІ, який одним з перших звернув увагу на статтю в X, коротко описав підхід: “Ці результати були досягнуті переважно шляхом донавчання на Qwen2.5-Coder. У статті не так багато деталей, але схоже, що вони дистилюють з RL чекпойнтів, а потім роблять фінальне RL-навчання інструкцій”. Його допис набрав понад 161 000 переглядів.
Тестування в реальному світі виявляє розрив між оцінками бенчмарків та практичною продуктивністю ШІ
На кожну захоплену реакцію стаття викликала таку ж рішучу заперечення. Спільнота дослідників ШІ в середині 2026 року стала глибоко настороженою щодо заяв, заснованих на бенчмарках, і VibeThinker-3B з’явилася в середовищі, готовому до підозр.
“Бенчмарки — це буквально зіставлення шаблонів у кодуванні з одного файлу”, — написав @BigMoonKR у X. “Це не має жодного відношення до реальної роботи з кодом. Я не знаю, як люди досі цього не розуміють”.
“Benchmaxxing”, — заявив @oflu_bedirhan, використовуючи термін, який став скороченням у спільноті ШІ для моделей, що здаються оптимізованими спеціально для продуктивності на бенчмарках за рахунок корисності в реальному світі.
Найгостріша критика надійшла від користувачів, які фактично завантажили та протестували модель. “Щойно спробував повну точність”, — написав @politilols. “Вона навіть не знає, що таке UV-скрипт (найпопулярніший інструмент розробки на Python). Я такого не бачив жодному LLM принаймні рік. Benchmaxxed”. Коли Бертоллотті відповів, що модель, здається, більше зосереджена на математичному аналізі, ніж на практичному кодуванні, користувач заперечив: “Вони включають оцінку Livecodebench. Жодного шансу, що це відображає модель”.
@Itsdotdev підняв структурну критику: “Подивіться на самі бенчмарки, і це, ймовірно, не буде так вражаюче. Чому немає DeepSWE? Чому немає стандартних бенчмарків, які використовують SOTA-провайдери?”. Користувач @AvenirReym поставив більш діагностичне запитання: “Якщо вона тримається на бенчмарку, створеному після закінчення навчальних даних моделі, це реально. Якщо вона перемагає лише на наборах стилю AIME, які циркулюють роками, це витік даних”.
Автори статті, схоже, передбачили ці заперечення. У технічній доповіді зазначено, що навчальні набори “пройшли сувору деконтамінацію бенчмарків”, включаючи фільтрацію на основі n-грам для видалення “перекриття n-грам з наборами оцінювання”.
Оцінка конкурсів LeetCode — яка охоплює конкурси з 25 квітня по 31 травня 2026 року, дати, що передують будь-якому правдоподібному відсіканню навчальних даних — є найвагомішим захистом від занепокоєнь щодо забруднення даних. На цих конкурсах VibeThinker-3B пройшла 123 зі 128 подань з першої спроби, що становить 96,1% — показник, який перевершив GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 та Claude Opus 4.6 за ідентичних умов оцінювання.
Тим не менш, звіти користувачів з реального світу свідчать про значний розрив між продуктивністю на бенчмарках та практичною корисністю — явище, яке стало звичним для всієї галузі. “У LM Studio вона добре реагує лише на перше запитання, на наступні запитання відповідає на перше”, — повідомив @luismolinaab.
Чому компанія соціальних мереж могла знайти лазівку в гіпотезі масштабування
Навіть найгостріші критики визнали, що досягнення цих показників бенчмарків при 3 мільярдах параметрів — незалежно від того, наскільки вони трансферні до виробничих сценаріїв використання — є значним інженерним досягненням. “Навіть якщо це benchmaxxing, робити це з 3 мільярдами параметрів — захоплююче, це показує, як швидко розвивається ця галузь”, — написав @rohityin.
Це спостереження зводиться до питання, яке поглинуло індустрію ШІ з моменту появи гіпотези масштабування: чи чим більше, тим краще? Звичайне переконання, сформульоване найвідоміше в законах масштабування Chinchilla та підкріплене комерційним домінуванням все більших фундаментальних моделей, стверджує, що більше параметрів і більше навчальних даних надійно дають кращу продуктивність. Економічний наслідок очевидний: навчання та розгортання передових моделей коштує десятки або сотні мільйонів доларів, створюючи величезні бар’єри для входу.
VibeThinker-3B кидає виклик цій консенсусу — але лише частково. Стаття обережна у формулюванні своїх тверджень, розрізняючи завдання з “чіткими сигналами перевірки” та ті, що вимагають широких фактичних знань. Гіпотеза параметричного стиснення-покриття прямо стверджує, що малі моделі не можуть замінити великі у всіх аспектах.
“Справжнє значення VibeThinker-3B полягає не в доведенні того, що 3-мільярдна модель може замінити великомасштабні загального призначення системи”, — йдеться в статті, — “а скоріше в наданні конкретного емпіричного сигналу: розробка компактних моделей більше не є просто пасивним компромісом для ефективності розгортання або контролю витрат; вона виступає як перспективний дослідницький напрямок, який є фундаментально доповнюючим до традиційної парадигми масштабування параметрів”.
Можливо, найдивовижнішим елементом роботи є її походження. Sina Weibo — публічно торгується на Nasdaq і Гонконзькій фондовій біржі, з ринковою капіталізацією, що коливається в межах кількох мільярдів — не є компанією, яку зазвичай асоціюють з передовими дослідженнями ШІ. Проте серія VibeThinker — це другий великий внесок Weibo у відкритий код ШІ за сім місяців.
VibeThinker-1.5B, випущена в листопаді 2025 року, продемонструвала, що модель із лише 1,5 мільярдом параметрів може перевершити оригінальний DeepSeek R1 у кількох математичних бенчмарках — результат, якого команда досягла, як стверджується, за пост-тренувальні витрати всього 7 800 доларів США, порівняно з оціночними 294 000 доларів США для DeepSeek R1.
Дослідницька команда компактна — дев’ять авторів, усі перелічені як співробітники Sina Weibo Inc. Модель випущена під ліцензією MIT, однією з найдозволеніших ліцензій з відкритим кодом, а ваги вільно завантажуються як з Hugging Face, так і з ModelScope. Протягом першого дня випуску члени спільноти вже створили квантизовані версії GGUF та похідні моделі.
Маленькі моделі, великі наслідки та питання, яке індустрія ШІ вже не може ігнорувати
Найчеснішою оцінкою VibeThinker-3B може бути те, що вона є одночасно меншою і більшою, ніж припускають бенчмарки. Меншою, оскільки модель, яка стикається з проблемами базових знань популярних інструментів розробника, навряд чи замінить будь-якого кодового асистента виробничого рівня найближчим часом. Більшою, оскільки основне розуміння — що здатність до аналізу та фактичні знання частково розділені, і що перша може бути стиснута набагато агресивніше, ніж передбачалося раніше — має глибокі наслідки для того, як індустрія ставиться до дизайну моделей, економіки розгортання та доступності передових можливостей ШІ.
Якщо Гіпотеза параметричного стиснення-покриття є вірною, вона передбачає майбутнє, в якому малі, спеціалізовані аналітичні двигуни працюють поруч з великими моделями, багатими на знання, у гібридних архітектурах — бачення, де 3-мільярдна модель обробляє логічні навантаження, тоді як більша система надає фактичну основу. Така архітектура могла б значно знизити вартість розгортання можливостей аналізу ШІ, потенційно приносячи конкурентний рівень математичних та кодувальних можливостей на пристрої з скромним обладнанням.
“Цікавим є те, що ми починаємо відокремлювати знання від аналізу”, — написав @RealLambdaFlux у X. “Маленька модель з сильним пост-тренуванням може сильніше вдарити за свій розмір на завданнях з чітким зворотним зв’язком”.
@cmitsakis запропонував практичний підсумок: “Я думаю, що малі моделі — це майбутнє для агентів, тому що вони можуть використовувати інструменти для отримання знань, і вони можуть працювати швидко і дешево”.
Незалежно від того, чи настане це майбутнє завдяки VibeThinker-3B, чи завдяки десяткам команд, які зараз поспішають відтворити та розширити ці результати, стаття вже досягла того, що жодна оцінка бенчмарку не може повністю охопити.
Вона змусила спільноту ШІ зіткнутися з незружливою можливістю: що роками галузь, можливо, витрачала мільярди доларів на масштабування параметрів для покращення такого типу інтелекту, який міг би, весь цей час, поміститися в ноутбук. Ваги є публічними. Код — відкритий. І найважливіший тест — не на жодній з лідерських дощок, а чи зможе хтось зробити настільки маленьку модель реально корисною у справжньому світі.
Порада від INFBusiness:
Ця новина є надзвичайно цінною для всіх, хто цікавиться розвитком штучного інтелекту, особливо для розробників, компаній та дослідників. Вона ставить під сумнів догму про те, що для досягнення високої продуктивності необхідні надвеликі моделі, і відкриває шлях до більш доступних та економічно ефективних рішень. Зверніть увагу на цю розробку, оскільки вона може суттєво вплинути на майбутнє галузі, дозволивши впроваджувати потужні ШІ-системи навіть на пристроях з обмеженими ресурсами.
За даними порталу: venturebeat.com
