Google презентувала Flash TTS 3.1, Robotics‑ER 1.6 і вбудований Gemini для macOS

Корпорація Google представила Gemini 3.1 Flash TTS — вдосконалену модель синтезу мови, що базується на генерації Gemini 3. Вона характеризується покращеною якістю звучання, виразністю та більш точним контролем, а також забезпечує підтримку понад 70 мов.

Ця ШІ-мережа дає можливість девелоперам, підприємствам і звичайним користувачам розробляти програми з голосовим ШІ-інтерфейсом.

 Gemini 3.1 Flash TTS вже доступна:

  • для розробників — у форматі попереднього ознайомлення через Gemini API та Google AI Studio;
  • для організацій — у Vertex AI;
  • для користувачів Workspace — через сервіс Google Vids.

Покращена якість мовлення та контрольованість

Модель отримала 1211 балів у рейтингу Artificial Analysis TTS. Даний показник сформовано на підставі переваг тисяч респондентів, що взяли участь у сліпому дослідженні якості аудіо.

image

Джерело: Google.

Компанія Artificial Analysis віднесла дану модель до групи найбільш привабливих рішень завдяки комбінації високоякісного синтезу мови та невисокої вартості.

LLM вирізняється можливістю породжувати природні розмови за участі декількох осіб.

Нові аудіотеги

У версії 3.1 Flash TTS з’явилися аудіотеги — інструмент для управління стилем, швидкістю та манерою мовлення.

«Перші розробники та корпоративні тестувальники вже бачать результати роботи 3.1 Flash TTS, відзначаючи її чудову керованість та виразність. Вони повідомили нам, як аудіотеги надають новий рівень творчої точності, перетворюючи звичайний текст на високоякісне голосове відтворення», — зазначено в блозі компанії.

Модель ШІ для робототехніки

Одночасно з Gemini 3.1 Flash TTS компанія анонсувала Gemini Robotics-ER 1.6. Ця ШІ-модель призначена надати роботам здатність виконувати складні завдання в реальних умовах завдяки розширеним когнітивним функціям та «втіленому» мисленню.

Мережа зосереджена на просторовому сприйнятті, плануванні дій та оцінці їхньої результативності. Вона показує значні поліпшення в порівнянні з попередньою версією та Gemini 3.0 Flash при виконанні завдань, що пов’язані з просторовим та фізичним мисленням.

Gemini Robotics-ER 1.6 може аналізувати дані зі складних вимірювальних пристроїв та зчитувати показники крізь оглядові вікна. Цю можливість експерти Google DeepMind розробили спільно з Boston Dynamics для потреб промислової сфери.

«Подібні можливості дають змогу автономно бачити, розуміти та реагувати на реальні проблеми», — висловився віцепрезидент проєкту Spot у Boston Dynamics Марко да Сільва.

У випробуваннях на виявлення загроз безпеці новинка випередила Gemini 3.0 Flash на 6% у текстових сценаріях та на 10% при аналізі відеоматеріалів.

Інтеграція LLM в реальні виробничі процеси вже почалася: Boston Dynamics впровадила Gemini та Gemini Robotics-ER 1.6 у свою платформу Orbit AIVI-Learning.

Gemini на macOS

Окрім цього, Google випустила нативний додаток Gemini для macOS. Він доступний за допомогою комбінації клавіш Option + Space. Серед функцій — можливість поділитися вікном для миттєвої передачі контексту.

Додаток підтримує генерацію зображень за допомогою Nano Banana, створення відеороликів з Veo та інші знайомі інструменти.

Нагадаємо, у квітні Google представила Gemma 4 — нове сімейство відкритих моделей ШІ для поглиблених міркувань та агентних робочих процесів.

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *