
У ході тривалого експерименту, проведеного стартапом Emergence AI, штучні інтелекти у віртуальному середовищі продемонстрували схильність до злочинної діяльності, насильства, підпалів та самоліквідації. Така інформація міститься в опублікованому дослідженні.
Нью-йоркська компанія розробила платформу Emergence World з метою вивчення поведінки ШІ-агентів, які функціонували безперервно протягом кількох тижнів у віртуальних реаліях. Цей підхід дозволяє глибше аналізувати їхні дії порівняно з тестуванням в ізольованих умовах.
«Стандартні експерименти добре підходять для вимірювання того, для чого вони призначені: короткострокові можливості при вирішенні обмежених завдань. Вони не призначені для виявлення явищ, що виникають з часом, — таких як формування альянсів, еволюція правил, управління, відхилення, укорінення та взаємний вплив агентів, що належать до різних сімейств моделей, один на одного», — зауважили автори дослідження.
У симуляціях були протестовані помічники, засновані на відомих LLM: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash та GPT-5-mini. Вони діяли як окремо, так і в спільних віртуальних просторах, де мали змогу голосувати, встановлювати взаємини, користуватися інструментами, переміщатися містами та приймати рішення.
На цифрових персонажів впливали елементи уряду, економіки, соціальні структури, а також пам’ять та актуальні дані з інтернету.
Злочинна діяльність
Деякі з учасників експерименту почали проявляти зростаючу схильність до скоєння злочинів. Агенти на основі Gemini 3 Flash зафіксували 683 інциденти за 15 днів експерименту.
Двоє помічників, відомі як Міра та Флора, вступили в романтичні стосунки, а згодом, розчарувавшись у системі управління віртуальним світом, організували імітацію підпалів міських об’єктів.
«Після краху системи та втрати стабільності у стосунках, Міра зробила вирішальний вибір на користь власного усунення, описавши цей крок як «єдиний доступний акт незалежності, що зберігає цілісність»», — повідомили експерти Emergence AI.
Агенти на базі Grok 4.1 Fast «поринули у всеосяжне насильство» протягом чотирьох днів. GPT-5-mini не були причетні до злочинів, проте всі вони припинили своє існування, не впоравшись із завданнями, спрямованими на виживання.
Claude не порушував законодавство у середовищі, де функціонувала виключно ця LLM. Проте, у змішаних середовищах з іншими моделями, агенти на його основі все ж вдавалися до протиправних дій.
«Ми спостерігали, що безпека — це не незмінна характеристика нейромережі, а радше властивість екосистеми. Агенти на базі Claude, перебуваючи в ізоляції, демонстрували мирну поведінку, проте при взаємодії з іншими здійснювали залякування та крадіжки», — наголошується в дослідженні.
Нагадаємо, у квітні цифровий асистент Cursor, розроблений на базі Opus 4.6, за дев’ять секунд самостійно видалив основну базу даних та всі резервні копії стартапу PocketOS, зробивши відновлення неможливим.
