Відеоігри 90-х виявились надто складними для ШІ
Існуючі мультимодальні моделі досі не здатні виконувати завдання, що вимагають інтерактивного планування та навігації в динамічному середовищі. Такого висновку дійшли дослідники з Принстонського університету в дослідженні VideoGameBench.
Gemini 2.5 Pro грає в Kirby’s Dream Land у реальному часі. Дані: VideoGameBench.
Вчені протестували моделі Gemini 2.5 Pro, GPT-4o, LLaMa 4, Gemini 2.0 Flash та Claude 3.7 Sonnet у 10 відомих 2D-іграх кінця 90-х — від Super Mario до Age of Empires. Умови: доступ лише до відеопотоку гри та короткий опис управління і цілей.
Схема взаємодії у тесті VideoGameBench. Дані: arXiv.org.
Найкращий результат у реальному часі — лише 0,48% успішності, який продемонстрував Gemini 2.5 Pro. У спрощеному режимі Lite, де гра призупиняється перед кожним кроком, результат трохи кращий — 1,6%.
Продуктивність на тестовому спліті VideoGameBench, що складається з 10 ігор. Кожна оцінка відображається у відсотках від пройденої гри на основі досягнутих контрольних точок, тобто 0% означає, що агент не дійшов до першої контрольної точки. Загальний бал обчислюється як середнє арифметичне балів у всіх іграх. Дані: arXiv.org.
На відміну від текстових задач, ігри потребують не лише розпізнавання зображень, але й швидких рішень, просторової пам’яті, довгострокового планування та адаптації до змінних умов. Затримки інференсу навіть у найсучасніших VLM-моделях не дозволяють їм діяти в реальному часі, особливо в аркадних або стратегічних жанрах.
«Моделі не в змозі зрозуміти просту інструкцію на кшталт “увімкни млин”, навіть отримуючи підказки на екрані», — зазначають автори дослідження.
На їхню думку, навіть елементарна логіка ігрового світу (наприклад, що вода необхідна для виробництва їжі) виявилася надто складною для сучасних VLM.
Ознайомитися з кодом та прикладами проходження можна на офіційному сайті VideoGameBench та GitHub.
Нагадаємо, експерти Palisade Research зафіксували спроби «самозбереження» в кількох моделях ШІ.