«Я здаюся». Нейромережі не впоралися з недільними загадками
Команда дослідників використала щотижневу рубрику з головоломками ведучого NPR Вілла Шортца для оцінки здібностей «міркування» у моделей штучного інтелекту.
Фахівці з кількох американських вишів, за підтримки стартапу Cursor, розробили універсальний тест для ШІ-моделей, спираючись на загадки з епізодів Sunday Puzzle. Як зазначила команда, дослідження виявило цікаві аспекти, включаючи те, що чат-боти іноді «здаються» та свідомо надають неправильні відповіді.
Sunday Puzzle — це щотижнева радіогра, у якій слухачам ставлять питання на логіку та синтаксис. Для розв’язання не потрібні специфічні теоретичні знання, але необхідні критичне мислення та навички аналізу.
Один із співавторів дослідження Арджун Гуха пояснив TechCrunch, що перевага методу «загадок» полягає в тому, що він не оцінює наявність езотеричних знань, а формулювання завдань ускладнює використання «механічної пам’яті» моделей ШІ.
«Ці головоломки складні, оскільки дуже важко досягти осмисленого прогресу, поки ви не розгадаєте їх — ось тоді виникає [остаточна відповідь]. Це вимагає поєднання інтуїції та процесу виключення», — пояснив він.
Проте Гуха підкреслив, що метод не ідеальний — Sunday Puzzle розрахований на англомовну аудиторію, а самі тести є доступними, що дозволяє ШІ «шахраювати». Дослідники планують розширити бенчмарк новими загадками, наразі він містить приблизно 600 завдань.
У проведених тестах o1 та DeepSeek R1 значно випередили інші моделі у здатності «міркувати». Провідні нейромережі ретельно перевіряли свої відповіді, але цей процес займав у них набагато більше часу, ніж звичайно.
Оцінки ШІ-моделей у тесті Sunday Puzzle. Джерело: TechCrunch.
Однак точність ШІ не перевищує 60%. Деякі моделі зовсім відмовлялися вирішувати загадки. Коли нейромережа DeepSeek не могла знайти правильну відповідь, під час міркування вона писала: «Я здаюся», а потім видавала неправильну відповідь, ніби обрану випадково.
Інші моделі кілька разів намагалися виправити свої попередні помилки, але все ж зазнавали невдачі. ШІ часто «застрягали в роздумах», генерували абсурдні відповіді, а іноді надавали правильні відповіді, але потім відмовлялися від них.
Відповідь «розчарованого» R1 від DeepSeek. TechCrunch.
«У складних завданнях R1 від DeepSeek буквально говорить, що він „розчарувався“. Кумедно спостерігати, як модель наслідує те, що може сказати людина. Потрібно з’ясувати, як „розчарованість“ у міркуваннях може вплинути на якість результатів моделі», — підкреслив Гуха.
Раніше дослідник тестував сім популярних чат-ботів у шаховому турнірі. Жодна з нейромереж не змогла повноцінно впоратися з грою.