Компания Google объявила о запуске Gemini 3.5 Live Translate — новой аудиомодели искусственного интеллекта для голосового перевода в режиме реального времени. Система автоматически распознает более 70 языков и переводит речь почти без задержек, сохраняя интонацию, темп и высоту голоса собеседника.
Разработчики называют новинку важным этапом в развитии технологий машинного перевода. Если традиционные системы обычно ждут завершения фразы или предложения перед началом перевода, Gemini 3.5 Live Translate работает непрерывно, генерируя переведенный голос параллельно с речью спикера.
По данным Google, модель поддерживает более 2000 языковых комбинаций и способна работать даже в шумной среде. Она также автоматически определяет язык собеседников без необходимости ручной настройки.

Одним из ключевых сценариев использования станут международные видеозвонки и встречи. В Google Meet новая система значительно расширит возможности функции перевода речи. Если раньше сервис поддерживал только пять языков и преимущественно работал через английский, то теперь пользователи смогут общаться на десятках языков без посредничества единого базового языка.

Закрытое тестирование улучшенного голосового перевода в Google Meet начнется в конце июня для части бизнес-клиентов Workspace. Разработчики уже получили доступ к Gemini 3.5 Live Translate через Gemini Live API и Google AI Studio. В течение года доступ к функции планируют расширить для большего количества пользователей.
Технологию уже тестируют внешние партнеры. В частности, компания Grab использует модель для многоязычного общения между водителями и пассажирами во время поездок. По словам компании, сервис обслуживает более 10 миллионов голосовых звонков ежемесячно.

Новый перевод также появился в приложении Google Translate. Пользователи могут подключить наушники и получать синхронный перевод разговора. Для Android дополнительно запустили режим Listening Mode, который позволяет слушать перевод без наушников, приложив смартфон к уху, как во время телефонного разговора.
В Google также отметили, что весь аудиоконтент, созданный Gemini 3.5 Live Translate, маркируется цифровым водяным знаком SynthID. Он незаметен для слушателя, но позволяет определять контент, сгенерированный ИИ, что должно помочь в борьбе с дезинформацией и фейковыми аудиозаписями.
Ранее Google без громких анонсов запустил приложение для преобразования речи в текст под названием Google AI Edge Eloquent, которое работает без подключения к интернету. Приложение, использующее модели автоматического распознавания речи Gemma, уже доступно для бесплатной загрузки на iOS.
