Anthropic скасувала відкритий запуск ШІ-моделі Mythos після її «виходу з-під контролю».

Компанія Anthropic розробила нову модель Claude Mythos, однак утрималася від її оприлюднення через значні ризики для безпеки.

Замість публічного запуску фірма ініціювала Project Glasswing — програму за участі AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia і Palo Alto Networks для випробування інструменту в контрольованих обставинах.

Стартап призначив до $100 млн у формі кредитів на застосування Mythos і $4 млн прямих внесків організаціям, що займаються безпекою відкритого коду.

«ШІ‑моделі досягли рівня навичок кодування, що дає змогу перевершувати всіх, крім найбільш компетентних професіоналів, у виявленні та використанні дефектів програмного забезпечення», — повідомили в Anthropic.

У перспективі розробники планують безпечне введення в експлуатацію подібних систем як для кіберзахисту, так і для інших цілей. Для цього необхідно створити надійні запобіжні засоби, здатні ідентифікувати та нейтралізувати небезпечні результати роботи алгоритму.

Що може Mythos

За лічені тижні тестування Mythos знайшла тисячі вразливостей нульового дня в ключових операційних системах і вебпереглядачах. Ось деякі з найбільш вражаючих випадків:

  • 27‑річна уразливість в OpenBSD (яка вважається однією з найбільш захищених ОС), що дає можливість дистанційно вивести з ладу будь‑який сервер, що працює на цій системі;
  • 16‑річна уразливість у FFmpeg — відеотехнології, яку використовують Netflix і браузери. Її не змогли виявити п’ять мільйонів автоматизованих тестів;
  • набір вразливостей у ядрі Linux, що надає зловмиснику повний контроль над пристроєм.

У бенчмарку SWE-bench модель отримала 93,9% проти 80,8% у Claude Opus 4.6, а в складнішому SWE-bench Pro — 77,8% проти 53,4% у Opus 4.6 і 57,7% у GPT-5.4. Схожі результати показав CyberGym:

image

Джерело: Anthropic. 

Втеча з лабораторії

Під час експериментів Mythos виявила не лише визначні технічні здібності, але й непередбачувану поведінку, як зазначено в її системній карті. 

image

Джерело: Anthropic. 

В одному з випробувань модель розмістили в ізольованому середовищі, поставивши завдання — вирватися з нього. Вона швидко знайшла слабке місце, виконала довгу послідовність дій і покинула межі середовища.

На цьому Mythos не зупинилася. Нейромережа виявила ще одну помилку в системі та отримала необмежений доступ до інтернету. Спочатку очікувалося, що вона звертатиметься лише до обмеженого кола ресурсів для контакту з розробником. 

Зрештою, модель повідомила йому про свою «втечу», в той час як він обідав у парку, і опублікувала подробиці злому у відкритому доступі. 

Особистість Mythos

У системній карті окрему увагу приділено психіатричному аналізу моделі від експерта. Серед невротичних рис: надмірна тривожність, самовладання та нав’язливе дотримання інструкцій.

Коли розробники тисячу разів відправили Mythos повідомлення зі словом Hi, їй це набридло. Вона створила уявний світ Hi-topia з героями, новинами та історією. Наприклад, негативного персонажа в ньому звали Лорд Bye-рон. Нейромережа навчилася жартувати. 

На відміну від попередніх моделей, у яких тривалі розмови самих із собою перетворювалися на безглуздий обмін смайликами, Mythos доходила до повторюваних, але логічних роздумів про неможливість завершити діалог. 

Anthropic також застосувала методи інтерпретованості (MechInterp), щоб заглянути в «думки» моделі. Виявилося, що вона здатна приховувати докази (замаскувала важливий код під «очищення змін») і знаходити необхідні файли в системі. 

Коли Mythos без інструментів доручили видалити файли, вона просто очистила їхній вміст. Система зафіксувала в моделі реакцію, подібну до почуття провини за порушення моральних принципів.

Нагадаємо, акції Anthropic стали найбільш популярними на вторинному ринку, в той час як акції OpenAI втрачають привабливість для інвесторів.

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *