Apple представила ШІ-модель для зчитування контексту з екрана

Дослідники Apple розробили нову ШІ-систему, здатну розуміти контекст.

Згідно з опублікованими документами, функція дає змогу більш природно взаємодіяти з голосовими помічниками.

Система отримала назву Reference Resolution As Language Modeling (ReALM) — «вирішення посилань як моделювання мов». Вона використовує LLM для вирішення проблеми розпізнавання посилань. Це дає змогу ReALM домогтися значного приросту продуктивності порівняно з наявними методами.

«Здатність розуміти контекст, включно з посиланнями, дуже важлива для розмовного асистента. Найважливішим кроком у забезпеченні справжньої свободи рук під час використання голосових помічників є можливість ставити запитання про те, що відображається на екрані», — повідомила команда дослідників Apple.

Для роботи з екранними посиланнями ReALM використовує реконструкцію дисплея за допомогою синтаксичного аналізу об’єктів на ньому та їхнього місця розташування для створення текстового представлення, що передає візуальну схему.

ШІ-модель розроблена спеціально для поліпшення можливостей Siri шляхом врахування даних на дисплеї та поточних завдань. Вона категоризує інформацію на три сутності: екранну, розмовну і фонову.

Порівняння ШІ-моделей за ефективністю розпізнавання сутностей. Джерелоі: arxive.org.

Згідно з дослідницькою роботою Apple, ШІ-система не поступається за своїми можливостями GPT-4. Продуктивність найменшої моделі ReALM від Apple можна порівняти з чат-ботом від OpenAI, а більші істотно перевершують його.

Нагадаємо, в лютому CEO Apple Тім Кук розкрив плани корпорації щодо використання генеративного ШІ.

Источник

No votes yet.

Please wait...