Claude Opus 4.6 перевершив GPT-5.2 в тестах продуктивності та отримав "агентний рой"

ШІ-стартап Anthropic здійснив оновлення своєї провідної моделі Claude Opus до варіації 4.6. Нейромережа більш вправно планує операції, витримує довготривалі завдання та діє результативніше з великими кодовими базами.

Контекстне вікно збільшили до 1 млн токенів. Подібний обсяг дає змогу опрацьовувати значні документи й підтримувати розлогі діалоги без втрати логічного зв’язку.

Удосконалені алгоритми адаптовані для робочих процесів: проведення фінансового аналізу, досліджень, застосування та створення документів, таблиць і презентацій.

Opus 4.6 отримала найвищий бал у випробуванні з програмування Terminal-Bench 2.0 та перевершила суперників у непростому міждисциплінарному тесті на логічне мислення Humanity’s Last Exam.

Порівняння Opus 4.6 з конкурентами в низці тестів. Джерело: Anthropic.

У GDPval-AA, що оцінює якість суджень та прийняття рішень, модель виявилася кращою за GPT-5.2 від OpenAI. LLM також продемонструвала найкращі показники в BrowseComp, що вимірює здатність розшукувати в інтернеті важкодоступну інформацію.

Джерело: Anthropic.

Opus 4.6 ефективно видобуває дані з об’ємних документів. Завдяки розширеному контекстному вікну модель фіксує та розпізнає неочевидні приховані деталі.

Команди агентів

Ключова інновація — можливість формувати групи агентів для спільної діяльності. У цьому режимі декілька ШІ-асистентів функціонують паралельно й автономно узгоджують свою роботу.

Інструмент підходить для завдань, що поділяються на незалежні етапи та вимагають аналізу значних обсягів тексту.

Замкнений цикл

В Anthropic повідомили, що «створюють Claude разом із Claude». Розробники пишуть програмний код за допомогою власної ШІ-моделі, а кожен новий продукт перед випуском проходить перевірку на внутрішніх задачах компанії.

Команда встановила, що Opus 4.6 приділяє більше уваги найскладнішим компонентам задачі без додаткових вказівок, оперативно виконує прості доручення, краще дає раду з нечіткими проблемами та зберігає продуктивність на тривалій дистанції.

«Opus 4.6 часто розмірковує більш глибоко і старанно перевіряє свої висновки перед прийняттям рішення. Це забезпечує кращі результати під час вирішення складних кейсів, однак може збільшити витрати та видатки у випадку з простими», — зазначили в компанії.

Безпека

Автоматизований аудит виявив в Opus 4.6 низьку схильність до небажаної поведінки: обману, підлещування, закріпленню помилкових переконань користувача та сприянню протиправним діям.

Модель демонструє безпеку на рівні Opus 4.5. Джерело: Anthropic.

Для інспекції моделі компанія провела найповнішу серію оцінок, вперше використавши нові методики тестування та вдосконаливши існуючі.

Доступність і нові функції

Claude Opus 4.6 вже доступна у вебінтерфейсі, через API і на основних хмарних платформах.

До набору інструментів для розробників додали нові опції:

адаптивне мислення — нейромережа самостійно визначає, коли потрібно застосувати режим глибокого розмірковування;
регулювання зусиль — передбачено чотири рівні інтенсивності роботи: від низького до максимального;
ущільнення контексту — інструмент автоматично підсумовує та замінює старий контекст, коли розмова наближається до межі токенів.

Нагадаємо, у січні CEO Anthropic Даріо Амодей спрогнозував швидку появу AGI та скорочення робочих місць.

No votes yet.

Please wait...

Claude Opus 4.6 перевершив GPT-5.2 в тестах продуктивності та отримав “агентний рой”

Команди агентів

Замкнений цикл

Безпека

Доступність і нові функції

Залишити відповідьСкасувати відповідь

INFBusiness

Курс валют

Соц мережі