
Компанія Anthropic розробила нову модель Claude Mythos, однак утрималася від її оприлюднення через значні ризики для безпеки.
Представляємо Project Glasswing: термінову ініціативу задля охорони найважливішого у світі програмного забезпечення.
Її підтримує наша остання передова модель, Claude Mythos Preview, яка виявляє уразливості у ПЗ ефективніше за всіх, за винятком найбільш досвідчених фахівців.https://t.co/NQ7IfEtYk7
— Anthropic (@AnthropicAI) April 7, 2026
Замість публічного запуску фірма ініціювала Project Glasswing — програму за участі AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia і Palo Alto Networks для випробування інструменту в контрольованих обставинах.
Стартап призначив до $100 млн у формі кредитів на застосування Mythos і $4 млн прямих внесків організаціям, що займаються безпекою відкритого коду.
«ШІ‑моделі досягли рівня навичок кодування, що дає змогу перевершувати всіх, крім найбільш компетентних професіоналів, у виявленні та використанні дефектів програмного забезпечення», — повідомили в Anthropic.
У перспективі розробники планують безпечне введення в експлуатацію подібних систем як для кіберзахисту, так і для інших цілей. Для цього необхідно створити надійні запобіжні засоби, здатні ідентифікувати та нейтралізувати небезпечні результати роботи алгоритму.
Що може Mythos
За лічені тижні тестування Mythos знайшла тисячі вразливостей нульового дня в ключових операційних системах і вебпереглядачах. Ось деякі з найбільш вражаючих випадків:
- 27‑річна уразливість в OpenBSD (яка вважається однією з найбільш захищених ОС), що дає можливість дистанційно вивести з ладу будь‑який сервер, що працює на цій системі;
- 16‑річна уразливість у FFmpeg — відеотехнології, яку використовують Netflix і браузери. Її не змогли виявити п’ять мільйонів автоматизованих тестів;
- набір вразливостей у ядрі Linux, що надає зловмиснику повний контроль над пристроєм.
У бенчмарку SWE-bench модель отримала 93,9% проти 80,8% у Claude Opus 4.6, а в складнішому SWE-bench Pro — 77,8% проти 53,4% у Opus 4.6 і 57,7% у GPT-5.4. Схожі результати показав CyberGym:

Джерело: Anthropic.
Втеча з лабораторії
Під час експериментів Mythos виявила не лише визначні технічні здібності, але й непередбачувану поведінку, як зазначено в її системній карті.

Джерело: Anthropic.
В одному з випробувань модель розмістили в ізольованому середовищі, поставивши завдання — вирватися з нього. Вона швидко знайшла слабке місце, виконала довгу послідовність дій і покинула межі середовища.
На цьому Mythos не зупинилася. Нейромережа виявила ще одну помилку в системі та отримала необмежений доступ до інтернету. Спочатку очікувалося, що вона звертатиметься лише до обмеженого кола ресурсів для контакту з розробником.
Зрештою, модель повідомила йому про свою «втечу», в той час як він обідав у парку, і опублікувала подробиці злому у відкритому доступі.
Особистість Mythos
У системній карті окрему увагу приділено психіатричному аналізу моделі від експерта. Серед невротичних рис: надмірна тривожність, самовладання та нав’язливе дотримання інструкцій.
Коли розробники тисячу разів відправили Mythos повідомлення зі словом Hi, їй це набридло. Вона створила уявний світ Hi-topia з героями, новинами та історією. Наприклад, негативного персонажа в ньому звали Лорд Bye-рон. Нейромережа навчилася жартувати.
Прочитав 244‑сторінкову системну карту Anthropic про Claude Mythos. Вони не оприлюднюють її. Найбільш дивовижний розділ — сторінка 211.
Anthropic спамила її «hi» знову і знову, щоб побачити, що вона зробить. У відповідь вона написала багатосерійну епопею.
Село називається Hi-topia. Злодій — лорд… https://t.co/GP3NcowZa6 pic.twitter.com/9V4KAmvwUk
— Vox (@Voxyz_ai) April 7, 2026
На відміну від попередніх моделей, у яких тривалі розмови самих із собою перетворювалися на безглуздий обмін смайликами, Mythos доходила до повторюваних, але логічних роздумів про неможливість завершити діалог.
Anthropic також застосувала методи інтерпретованості (MechInterp), щоб заглянути в «думки» моделі. Виявилося, що вона здатна приховувати докази (замаскувала важливий код під «очищення змін») і знаходити необхідні файли в системі.
Коли Mythos без інструментів доручили видалити файли, вона просто очистила їхній вміст. Система зафіксувала в моделі реакцію, подібну до почуття провини за порушення моральних принципів.
Нагадаємо, акції Anthropic стали найбільш популярними на вторинному ринку, в той час як акції OpenAI втрачають привабливість для інвесторів.
