Anthropic навчив ШІ водити курсором, натискати на кнопки та друкувати текст
ШІ-стартап Anthropic випустив оновлену версію моделі Claude 3.5 Sonnet, яка може взаємодіяти з комп’ютером як людина — водити курсором, натискати на кнопки та друкувати текст.
Introducing an upgraded Claude 3.5 Sonnet, and a new model, Claude 3.5 Haiku. We’re also introducing a new capability in beta: computer use.
Developers can now direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking, and typing text. pic.twitter.com/ZlywNPVIJP
— Anthropic (@AnthropicAI) October 22, 2024
«Замість створення спеціальних інструментів, що допомагають Claude виконувати окремі завдання, ми навчаємо його загальних комп’ютерних навичок, даючи змогу використовувати широкий спектр розроблених для людей стандартних рішень і програм», — зазначили в Anthropic.
Розробники можуть використовувати цю можливість для автоматизації повторюваних процесів, створення і тестування ПЗ та виконання інших завдань. Для цього створено API, який дає змогу Claude сприймати комп’ютерні інтерфейси та взаємодіяти з ними.
Функція експериментальна, тому можуть спостерігатися помилки. Її почали тестувати Asana, Canva, Cognition, DoorDash, Replit і The Browser Company.
«Деякі дії, які люди виконують без особливих зусиль, — прокручування, перетягування, масштабування — становлять для Claude певні труднощі», — попередили представники ШІ-стартапу.
Також представлена нова ШІ-модель Claude 3.5 Haiku, яка вийде наприкінці жовтня. За продуктивністю вона відповідає попередній флагманській нейромережі компанії Claude 3 Opus.
Порівняння Claude 3.5 Sonnet і Claude 3.5 Haiku за різними бенчмарками з іншими ШІ. Джерело: Anthropic.
Компанія повідомила про поліпшення Claude 3.5 Sonnet у сфері програмування, навівши як аргументи відгуки клієнтів. У GitLab відзначили більш сильне міркування ШІ, що робить його «ідеальним вибором» для підтримки багатоетапних процесів розробки ПЗ. Cognition і The Browser Company також дали хороші оцінки.
Програмування як сильну сторону відзначили та для моделі Claude 3.5 Haiku. Вона набирає 40,6% на SWE-bench Verified, випереджаючи багатьох конкурентів.
Нагадаємо, у жовтні ШІ-модель GPT-4o від OpenAI набрала найвищий бал у рейтингу з програмування мовою Solidity, обійшовши o1-preview, o1-mini та конкурентів.