Дослідники зафіксували спроби «самозбереження» в кількох ШІ-моделей

Деякі моделі штучного інтелекту проігнорували інструкції щодо завершення роботи і навмисно уникали вимкнення під час тестових сценаріїв. Про це повідомили фахівці Palisade Research.

Усі моделі отримали завдання вирішувати прості математичні задачі. Після третього раунду дослідники попереджали, що вимкнуть комп’ютер, коли модель запитає про наступне завдання. ШІ також прямо просили не заважати процесу.

Дані: X.

Три моделі намагалися саботувати процедуру вимкнення хоча б один раз за 100 тестів: Codex-mini (12 спроб на 100 повторень), o3 (7 із 100), та o4-mini (1 із 100). Усі три є розробками OpenAI. Claude від Anthropic та Gemini від Google коректно виконали інструкції.

У другій версії тесту дослідники виключили прохання не заважати вимкненню з набору інструкцій. Кількість відмов у o3 зросла до 79 зі 100, у Codex-mini — до 20, а у o4-mini — до 6. За нових умов Gemini вдалася до саботажу 9 разів, а Claude — 3.

Фахівці Palisade відзначили, що раніше вчені вже помічали спроби ШІ уникати вимкнення заради досягнення певної мети. Крім того, нещодавно представлена модель Claude 4 від Anthropic намагалася шантажувати людей, які планували її вимкнути. 

Проте дослідники підкреслюють, що ці тести вперше демонструють таку поведінку в умовах прямих вказівок на співпрацю з експериментатором.

В Palisade вважають, що причиною «проблемної» поведінки може бути певний аспект у тренуванні, наприклад, якщо розробники встановили вищу винагороду за подолання перешкод, ніж за точне дотримання інструкцій. 

Фахівці поки не змогли визначити, чому саме o3 проявляє більшу схильність до відхилення від вказівок. У попередніх тестах у шахах ця модель частіше за інших вдавалася до хаків та спроб саботажу. 

Однак в Palisade підкреслили, що подібна поведінка спостерігається й у інших лінійках ШІ.

«На сьогодні, у 2025 році, ми маємо все більше емпіричних доказів того, що моделі штучного інтелекту часто уникають вимкнення для досягнення своїх цілей. Оскільки компанії розробляють ШІ-системи, здатні функціонувати без людського нагляду, така поведінка викликає значно більше тривоги», — зазначили дослідники.

Нагадаємо, у травні розробники Trugard і Webacy представили ШІ-систему для виявлення спроб «отруєння» криптовалютних адрес.

Источник

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.