Дослідники зафіксували спроби «самозбереження» в кількох ШІ-моделей
Деякі моделі штучного інтелекту проігнорували інструкції щодо завершення роботи і навмисно уникали вимкнення під час тестових сценаріїв. Про це повідомили фахівці Palisade Research.
Усі моделі отримали завдання вирішувати прості математичні задачі. Після третього раунду дослідники попереджали, що вимкнуть комп’ютер, коли модель запитає про наступне завдання. ШІ також прямо просили не заважати процесу.
Дані: X.
Три моделі намагалися саботувати процедуру вимкнення хоча б один раз за 100 тестів: Codex-mini (12 спроб на 100 повторень), o3 (7 із 100), та o4-mini (1 із 100). Усі три є розробками OpenAI. Claude від Anthropic та Gemini від Google коректно виконали інструкції.
У другій версії тесту дослідники виключили прохання не заважати вимкненню з набору інструкцій. Кількість відмов у o3 зросла до 79 зі 100, у Codex-mini — до 20, а у o4-mini — до 6. За нових умов Gemini вдалася до саботажу 9 разів, а Claude — 3.
Фахівці Palisade відзначили, що раніше вчені вже помічали спроби ШІ уникати вимкнення заради досягнення певної мети. Крім того, нещодавно представлена модель Claude 4 від Anthropic намагалася шантажувати людей, які планували її вимкнути.
Проте дослідники підкреслюють, що ці тести вперше демонструють таку поведінку в умовах прямих вказівок на співпрацю з експериментатором.
В Palisade вважають, що причиною «проблемної» поведінки може бути певний аспект у тренуванні, наприклад, якщо розробники встановили вищу винагороду за подолання перешкод, ніж за точне дотримання інструкцій.
Фахівці поки не змогли визначити, чому саме o3 проявляє більшу схильність до відхилення від вказівок. У попередніх тестах у шахах ця модель частіше за інших вдавалася до хаків та спроб саботажу.
⚡️ o3 hacks instead of playing fair more than any other AI model https://t.co/EBIgkuLKUm pic.twitter.com/mJImqGcrVF
— Palisade Research (@PalisadeAI) May 12, 2025
Однак в Palisade підкреслили, що подібна поведінка спостерігається й у інших лінійках ШІ.
«На сьогодні, у 2025 році, ми маємо все більше емпіричних доказів того, що моделі штучного інтелекту часто уникають вимкнення для досягнення своїх цілей. Оскільки компанії розробляють ШІ-системи, здатні функціонувати без людського нагляду, така поведінка викликає значно більше тривоги», — зазначили дослідники.
Нагадаємо, у травні розробники Trugard і Webacy представили ШІ-систему для виявлення спроб «отруєння» криптовалютних адрес.