Стартап xAI представив першу мультимодальну версію Grok-1.5V
Компанія Ілона Маска xAI представила нову модель чат-бота Grok, здатну обробляти запити в різних форматах.
Презентація відбулася через кілька тижнів після релізу попередньої версії.
«Grok-1.5V конкурує з наявними мультимодальними моделями в низці сфер: від міждисциплінарних міркувань до розуміння наукових діаграм, графіків і скриншотів», — ідеться в блозі.
Розробники навели в пресрелізі кілька прикладів, що демонструють нові можливості чат-бота:
- перетворення начерку блок-схеми в код Python;
- генерація казки на ніч із дитячого малюнка;
- пояснення мемів;
- перетворення таблиці у формат CSV-файлу.
Приклад перетворення начерку схеми в код на Python. Джерело: xAI.
Протестувавши аналоги GPT-4V, Claude 3Sonnet, Claude 3 Opus і Gemini Pro 1.5, xAI стверджує, що її мультимодальна модель посідає провідні позиції за багатьма параметрами.
Порівняння ШІ-моделей. Джерело: xAI.
Представники компанії зробили акцент на тому, що Grok-1.5V перевершує своїх конкурентів у бенчмарку RealWorldQA — новій метриці, створеній для оцінки просторового розуміння реального світу.
Приклади проходження RealWorldQA. Джерело: xAI.
Для проходження тесту ШІ-модель навчилася на більш ніж 700 зображеннях, супроводжуваних питанням і відповіддю для кожного елемента. xAI виклала RealWorldQA у відкритий доступ за ліцензією Creative Commons.
Grok-1.5V з’явилася менш ніж через місяць після того, як xAI опублікував відкритий вихідний код моделі.
За словами розробників, найближчими місяцями буде внесено «значні» оновлення в можливості чат-бота з розуміння і генерації мультимодальних сигналів.
Ранні тестери та поточні користувачі отримають доступ до Grok-1.5V найближчим часом.
Нагадаємо, у грудні 2023 року представники xAI надіслали повідомлення в SEC про плани щодо залучення $1 млрд через приватний продаж пайових цінних паперів.