ChatGPT навчився виконувати завдання замість людини

OpenAI представила нового універсального ШІ-агента в ChatGPT, який здатний самостійно виконувати різноманітні комп’ютерні завдання від імені користувачів.

За інформацією компанії, агент має можливість автоматично управляти календарем, створювати редаговані презентації та слайди, а також виконувати код.

ChatGPT agent об’єднує функції кількох попередніх агентних систем: здатність оператора взаємодіяти з вебсайтами за допомогою кліка, можливості Deep Research зі збору даних з багатьох джерел та складання стиснених аналітичних звітів.

Управління агентом здійснюється через діалог звичайною мовою. На початку інструмент доступний для користувачів з підписками Pro, Plus і Team. Для активації потрібно вибрати «режим агента» (agent mode) у меню ChatGPT.

Новий агент підтримує ChatGPT connectors — інтеграцію з Gmail, GitHub та іншими програмами для виконання запитів. Крім того, він має доступ до терміналу та здатний працювати з API.

Сценарії використання вже включають планування і покупку інгредієнтів для японського сніданку на чотирьох, аналіз конкурентів і створення презентації на основі зібраних результатів.

Тестування

Модель, що лежить в основі агента, демонструє видатні результати в ряді бенчмарків. У тесті Humanity’s Last Exam — одному з найскладніших, що включає тисячі запитань з більш ніж 100 дисциплін — ChatGPT agent отримав 41,6%, що вдвічі перевищує результати моделей o3 і o4-mini.

ChatGPT научился выполнять задачи вместо человека

Порівняння моделей у Humanity’s Last Exam. Джерело: OpenAI.

У складному математичному бенчмарку FrontierMath агент досяг результату 27,4%. Попередній рекорд належав o4-mini — 6,3%.

Безпека

OpenAI підкреслила важливість безпеки нового агента через його потужний функціонал, що може потенційно бути використаний зловмисниками.

У системному звіті вказано, що модель демонструє «високу здатність» у сфері біологічної та хімічної зброї, тобто теоретично може посилити існуючі способи завдання шкоди. Прямих доказів загрози немає, проте компанія вживає запобіжних заходів:

  • онлайн-моніторинг — всі запити користувачів проходять через класифікатор, який визначає, чи пов’язані вони з біологічною тематикою. Якщо так — відповідь перевіряється ще раз на наявність потенційної загрози;
  • вимкнена функція пам’яті — для запобігання витоку даних через шкідливі ін’єкції у промптах.

Нагадаємо, у липні стало відомо, що OpenAI посилила безпеку своїх систем у відповідь на загрози корпоративного шпигунства з боку китайських конкурентів.

Источник

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.