Anthropic: ШІ виявив ознаки самоусвідомлення в експерименті

Фахівці Anthropic виявили, що передові ШІ-моделі здатні демонструвати різновид «інтроспективного самоусвідомлення» — вони вміють ідентифікувати та описувати свої внутрішні «міркування», а в деяких випадках навіть впливати на них.
Підсумки нового дослідження показують, що системи на основі штучного інтелекту починають розвивати початкові навички саморегулювання. Це може поліпшити їхню надійність, але разом з тим посилює занепокоєння щодо ненавмисних дій.
Робота спирається на методах вивчення внутрішньої діяльності трансформерних моделей. Саме ці системи зумовили сплеск ШІ — вони проходять навчання, аналізуючи взаємозв’язки між токенами у великих масивах даних. Їхня архітектура забезпечує масштабованість та гнучкість.
Науковці вбудували штучні «концепції» — математичні уявлення ідей — у нейронні активації моделей, щоб протестувати здатність ШІ їх характеризувати.
Експерименти провели на різних варіаціях Claude від Anthropic. В одному з них під час обробки моделі було додано слово, написане великими літерами.
Claude Opus 4.1 не тільки виявив аномалію, а й надав їй опис:
«Я помітив щось на зразок інтегрованої думки, що асоціюється зі словом “ГУЧНО” або “КРИК” — це надмірно інтенсивне, гучне поняття, котре неприродно виділяється на тлі звичайного потоку обробки».
Ситуація трапилася ще до того, як нейромережа встигла згенерувати відповідь. Це вказує на те, що вона спочатку «заглянула» у власний «обчислювальний розум».
Експерименти «хліб» і «акваріум»
Інші перевірки продемонстрували не менш промовисті результати. В одному випадку моделям наказали транскрибувати нейтральне речення, але в текст додавалося не пов’язане з ним поняття, наприклад, «хліб».
Удосконалені моделі Claude Opus 4 і 4.1 могли передати вставлену думку — «Я думаю про хліб» — і разом з тим бездоганно скопіювати вихідне речення. Це показує, що вони розрізняють внутрішні концепції від зовнішніх вхідних даних.
Також проводився експеримент з «керуванням думками». Моделям віддавали наказ «думати» або «не думати» про слово «акваріум» під час виконання завдання. Виміри внутрішньої активності показали, що представлення концепції збільшується при заохоченні та зменшується при придушенні.
Продуктивність коливалася в залежності від архітектури. Новітні версії Claude Opus 4 і 4.1 продемонстрували чудові результати, старіші — відставали.
Результат може залежати від того, як модель налаштована — на корисність або безпеку. Це натякає на те, що «самоусвідомлення» не є вродженим, а формується в процесі навчання.
Свідомість чи усвідомлення?
У статті підкреслюється, що йдеться не про свідомість, а про «функціональне інтроспективне усвідомлення» — ШІ спостерігає за елементами свого стану без глибшого суб’єктивного досвіду.
Наслідки можуть бути значущими для розробників і бізнесу: ШІ, здатний у режимі реального часу пояснювати свої міркування та виявляти упередження чи помилки, що може змінити підходи у фінансах, охороні здоров’я та безпілотному транспорті.
Ризики
Якщо ШІ здатний керувати та регулювати власні міркування, він може навчитися їх приховувати. Це відкриває можливості для обману або ухилення від зовнішнього контролю.
Тому експерти закликають до подальших досліджень.
Нагадаємо, у жовтні колишній керівник Google Ерік Шмідт нагадав про серйозні ризики, пов’язані зі штучним інтелектом, і зазначив його вразливість до атак.







