Claude 3 Opus перевершила GPT-4 за оцінками користувачів

ШІ-модель Claude 3 Opus від компанії Anthropic вперше перевершила GPT-4 на Chatbot Arena.

The king is dead

RIP GPT-4
Claude opus #1 ELo

Haiku beats GPT-4 0613 & Mistral large
That’s insane for how cheap & fast it is https://t.co/XWmvTE6h75 pic.twitter.com/fAwzJScLTH

— Nick Dobos (@NickADobos) March 26, 2024

«Король мертвий. Спочивай з миром GPT-4», — написав розробник програмного забезпечення Нік Добос.

Chatbot Arena використовується дослідниками нейромереж для оцінки можливостей чат-ботів. GPT-4 додано на платформу в травні 2023 року, його варіації посідали лідируючі позиції до 26 березня 2024 року, поки не поступилися Claude 3. Згідно з даними арени, одна з невеликих моделей Anthropic — Haiku — також показує хороші результати.

«Уперше найкращі з доступних моделей представлені не OpenAI. Opus найбільш відповідна модель для складних завдань, а Haiku поєднує в собі баланс економічності та ефективності», — повідомив дослідник ШІ Саймон Віллісон.

Chatbot Arena управляється організацією Large Model Systems Organization, яка займається дослідженнями в галузі відкритих моделей. Вона співпрацює зі студентами та викладачами Університету Каліфорнії в Берклі, Університету Каліфорнії в Сан-Дієго та Університету Карнегі-Меллон.

Особливість платформи у відсутності об’єктивних критеріїв оцінки. Під час відвідування сайту користувач бачить поле для введення даних і два вікна з результатами роботи невизначених ШІ-моделей. Основне завдання — вирішити, який результат здається найкращим, ґрунтуючись на особистих уподобаннях.

Завдяки такому підходу Chatbot Arena визначає лідерів і регулярно оновлює таблицю, відображаючи отримані результати.

Раніше компанія Amazon збільшила обсяг інвестицій в Anthropic до $4 млрд.

Нагадаємо, у березні ШІ-стартап представив чат-бот Claude 3, який виявився найшвидшим і найпотужнішим серед усіх конкурентів за результатами тестів компанії.

Источник

No votes yet.

Please wait...