Відеоігри 90-х виявились надто складними для ШІ

Існуючі мультимодальні моделі досі не здатні виконувати завдання, що вимагають інтерактивного планування та навігації в динамічному середовищі. Такого висновку дійшли дослідники з Принстонського університету в дослідженні VideoGameBench.

Gemini 2.5 Pro грає в Kirby’s Dream Land у реальному часі.  Дані: VideoGameBench.

Вчені протестували моделі Gemini 2.5 Pro, GPT-4o, LLaMa 4, Gemini 2.0 Flash та Claude 3.7 Sonnet у 10 відомих 2D-іграх кінця 90-х — від Super Mario до Age of Empires. Умови: доступ лише до відеопотоку гри та короткий опис управління і цілей.

Схема взаємодії у тесті VideoGameBench. Дані: arXiv.org.

Найкращий результат у реальному часі — лише 0,48% успішності, який продемонстрував Gemini 2.5 Pro. У спрощеному режимі Lite, де гра призупиняється перед кожним кроком, результат трохи кращий — 1,6%.

Продуктивність на тестовому спліті VideoGameBench, що складається з 10 ігор. Кожна оцінка відображається у відсотках від пройденої гри на основі досягнутих контрольних точок, тобто 0% означає, що агент не дійшов до першої контрольної точки. Загальний бал обчислюється як середнє арифметичне балів у всіх іграх. Дані: arXiv.org.

На відміну від текстових задач, ігри потребують не лише розпізнавання зображень, але й швидких рішень, просторової пам’яті, довгострокового планування та адаптації до змінних умов. Затримки інференсу навіть у найсучасніших VLM-моделях не дозволяють їм діяти в реальному часі, особливо в аркадних або стратегічних жанрах.

«Моделі не в змозі зрозуміти просту інструкцію на кшталт “увімкни млин”, навіть отримуючи підказки на екрані», — зазначають автори дослідження.

На їхню думку, навіть елементарна логіка ігрового світу (наприклад, що вода необхідна для виробництва їжі) виявилася надто складною для сучасних VLM.

Ознайомитися з кодом та прикладами проходження можна на офіційному сайті VideoGameBench та GitHub.

Нагадаємо, експерти Palisade Research зафіксували спроби «самозбереження» в кількох моделях ШІ. 

Источник

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *






Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.

Аналітики QCP Capital повідомили, що, незважаючи на загострення конфлікту між Іраном…

Президент Сполучених Штатів Дональд Трамп отримав понад $57 млн прибутку від…

Засновники Sky (раніше MakerDAO) Руне Крістенсен та Ethena Ґай Янг у…

Слово «метавселенная» звучит как фантастика, но на деле это объединённый виртуальный…

В рамках міжнародної операції RapTor правоохоронні органи США і Тайваню закрили…

Генеральний директор Bitwise Хантер Хорслі вважає, що можливості біткоїна значно перевищують…

Компанія Nvidia представила cBottle — генеративну модель штучного інтелекту, яка формує…

IBM планує створити перший у світі масштабований відмовостійкий квантовий комп’ютер, відомий…

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *