Нові ШІ-моделі від Alibaba обійшли GPT-4o в математиці
Alibaba запустила групу великих мовних моделей (LLM) з акцентом на математику під назвою Qwen2-Math, які «перевершують GPT-4o і Claude 3.5» у цій галузі.
Today we release a new model series for math-specific language models, Qwen2-Math, which is based on Qwen2. The flagship model, Qwen2-Math-72B-Instruct, outperforms proprietary models, including GPT-4o and Claude 3.5, in math related downstream tasks!
Feel free to check our blog… pic.twitter.com/9P4BiBweFY
— Qwen (@Alibaba_Qwen) August 8, 2024
«За останній рік ми доклали чимало зусиль для вивчення і розширення можливостей міркувань великих мовних моделей, приділяючи особливу увагу їхній здатності розв’язувати арифметичні та математичні задачі», — зазначила команда Qwen, що входить до складу підрозділу хмарних обчислень Alibaba.
Моделі Qwen2-Math випущені на базі представлених у червні LLM Qwen2. Стверджується, що флагманська Qwen2-Math-72B-Instruct перевершила американських конкурентів у математиці, зокрема GPT-4o від OpenAI, Claude 3.5 Sonnet від Anthropic, Gemini 1.5 Pro від Google і Llama-3.1-405B від Meta Platforms.
Порівняння Qwen2-Math з іншими ШІ-моделями. Джерело: Qwen.
На початку серпня ШІ-підрозділ Google DeepMind випустив експериментальну версію своєї провідної ШІ-моделі Gemini 1.5 Pro, яка привернула увагу громадськості через високі результати під час тестів.
«Ми сподіваємося, що Qwen2-Math зможе зробити свій внесок у наукову спільноту, розв’язуючи складні математичні задачі, які потребують багатоетапних логічних міркувань», — зазначили розробники.
Згідно з наданою інформацією, нові ШІ-моделі Alibaba протестовані на математичних завданнях англійською та китайською мовами. Вони включали:
- GSM8K — це набір даних із ~8000 завдань для учнів початкової та середньої школи;
- OlympiadBench — завдання високого рівня, що вимагають абстрактного мислення, логіки та математичних знань;
- GaoKao — національний вступний іспит до вишів Китаю, вважається одним із найскладніших у світі.
Порівняння Qwen2-Math з іншими ШІ-моделями в різних тестах. Джерело: Qwen.
За словами команди, нові ШІ-моделі мають деякі обмеження через підтримку лише англійської мови. Найближчим часом планується випуск двомовних LLM, а пізніше — багатомовних.
Нагадаємо, у серпні стало відомо про роботу Alibaba над генератором зображень Tora.
Раніше техгігант анонсував випуск чат-бота зі штучним інтелектом Tongyi Qianwen.