Відеоігри 90-х виявились надто складними для ШІ

Існуючі мультимодальні моделі досі не здатні виконувати завдання, що вимагають інтерактивного планування та навігації в динамічному середовищі. Такого висновку дійшли дослідники з Принстонського університету в дослідженні VideoGameBench.

Gemini 2.5 Pro грає в Kirby’s Dream Land у реальному часі.  Дані: VideoGameBench.

Вчені протестували моделі Gemini 2.5 Pro, GPT-4o, LLaMa 4, Gemini 2.0 Flash та Claude 3.7 Sonnet у 10 відомих 2D-іграх кінця 90-х — від Super Mario до Age of Empires. Умови: доступ лише до відеопотоку гри та короткий опис управління і цілей.

Схема взаємодії у тесті VideoGameBench. Дані: arXiv.org.

Найкращий результат у реальному часі — лише 0,48% успішності, який продемонстрував Gemini 2.5 Pro. У спрощеному режимі Lite, де гра призупиняється перед кожним кроком, результат трохи кращий — 1,6%.

Продуктивність на тестовому спліті VideoGameBench, що складається з 10 ігор. Кожна оцінка відображається у відсотках від пройденої гри на основі досягнутих контрольних точок, тобто 0% означає, що агент не дійшов до першої контрольної точки. Загальний бал обчислюється як середнє арифметичне балів у всіх іграх. Дані: arXiv.org.

На відміну від текстових задач, ігри потребують не лише розпізнавання зображень, але й швидких рішень, просторової пам’яті, довгострокового планування та адаптації до змінних умов. Затримки інференсу навіть у найсучасніших VLM-моделях не дозволяють їм діяти в реальному часі, особливо в аркадних або стратегічних жанрах.

«Моделі не в змозі зрозуміти просту інструкцію на кшталт “увімкни млин”, навіть отримуючи підказки на екрані», — зазначають автори дослідження.

На їхню думку, навіть елементарна логіка ігрового світу (наприклад, що вода необхідна для виробництва їжі) виявилася надто складною для сучасних VLM.

Ознайомитися з кодом та прикладами проходження можна на офіційному сайті VideoGameBench та GitHub.

Нагадаємо, експерти Palisade Research зафіксували спроби «самозбереження» в кількох моделях ШІ. 

Источник

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.