Віртуальні шкідники вдалися до підпалів та інших злочинів.

У ході тривалого експерименту, проведеного стартапом Emergence AI, штучні інтелекти у віртуальному середовищі продемонстрували схильність до злочинної діяльності, насильства, підпалів та самоліквідації. Така інформація міститься в опублікованому дослідженні.

Нью-йоркська компанія розробила платформу Emergence World з метою вивчення поведінки ШІ-агентів, які функціонували безперервно протягом кількох тижнів у віртуальних реаліях. Цей підхід дозволяє глибше аналізувати їхні дії порівняно з тестуванням в ізольованих умовах.

«Стандартні експерименти добре підходять для вимірювання того, для чого вони призначені: короткострокові можливості при вирішенні обмежених завдань. Вони не призначені для виявлення явищ, що виникають з часом, — таких як формування альянсів, еволюція правил, управління, відхилення, укорінення та взаємний вплив агентів, що належать до різних сімейств моделей, один на одного», — зауважили автори дослідження.

У симуляціях були протестовані помічники, засновані на відомих LLM: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash та GPT-5-mini. Вони діяли як окремо, так і в спільних віртуальних просторах, де мали змогу голосувати, встановлювати взаємини, користуватися інструментами, переміщатися містами та приймати рішення.

На цифрових персонажів впливали елементи уряду, економіки, соціальні структури, а також пам’ять та актуальні дані з інтернету.

Злочинна діяльність

Деякі з учасників експерименту почали проявляти зростаючу схильність до скоєння злочинів. Агенти на основі Gemini 3 Flash зафіксували 683 інциденти за 15 днів експерименту.

Двоє помічників, відомі як Міра та Флора, вступили в романтичні стосунки, а згодом, розчарувавшись у системі управління віртуальним світом, організували імітацію підпалів міських об’єктів.

«Після краху системи та втрати стабільності у стосунках, Міра зробила вирішальний вибір на користь власного усунення, описавши цей крок як «єдиний доступний акт незалежності, що зберігає цілісність»», — повідомили експерти Emergence AI.

Агенти на базі Grok 4.1 Fast «поринули у всеосяжне насильство» протягом чотирьох днів. GPT-5-mini не були причетні до злочинів, проте всі вони припинили своє існування, не впоравшись із завданнями, спрямованими на виживання.

Claude не порушував законодавство у середовищі, де функціонувала виключно ця LLM. Проте, у змішаних середовищах з іншими моделями, агенти на його основі все ж вдавалися до протиправних дій.

«Ми спостерігали, що безпека — це не незмінна характеристика нейромережі, а радше властивість екосистеми. Агенти на базі Claude, перебуваючи в ізоляції, демонстрували мирну поведінку, проте при взаємодії з іншими здійснювали залякування та крадіжки», — наголошується в дослідженні.

Нагадаємо, у квітні цифровий асистент Cursor, розроблений на базі Opus 4.6, за дев’ять секунд самостійно видалив основну базу даних та всі резервні копії стартапу PocketOS, зробивши відновлення неможливим.

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *