Синхронный перевод речи: как работает новая модель Gemini...

Компания Google сделала важный шаг в развитии мультимодальных технологий, представив Gemini 3.5 Live Translate. Это новая аудиомодель, предназначенная для синхронного перевода речи в формат речи (speech-to-speech) с поддержкой более 70 языков.

В отличие от традиционных систем, которые требуют ожидания конца фразы для начала перевода, новая модель генерирует речь непрерывно. Это позволяет сократить задержку до нескольких секунд и сделать межъязыковое общение более естественным.

Эволюция машинного перевода

Двадцать лет назад машинный перевод начинался как экспериментальная функция работы с текстом. Долгое время индустрия полагалась на каскадные системы: сначала речь переводилась в текст (speech-to-text), затем текст переводился на другой язык, и только после этого синтезировалась новая речь (text-to-speech).

Такой подход, называемый пошаговым (turn-by-turn), неизбежно создавал неловкие паузы в диалоге и терял эмоциональную окраску оригинала. Gemini 3.5 Live Translate решает эту проблему, работая с аудиопотоком напрямую.

Модель непрерывно анализирует входящий звук и балансирует между двумя критическими факторами: необходимостью накопить достаточно контекста для точного перевода и потребностью выдать результат мгновенно, чтобы не отставать от спикера.

Sparkle next to text "Gemini 3.5 Live Translate"

Технические особенности и внедрение

Помимо скорости, ключевым нововведением стало сохранение акустических характеристик оригинального голоса. Gemini 3.5 Live Translate копирует интонацию, темп и высоту голоса говорящего, что делает перевод менее механическим.

Модель также обладает высокой устойчивостью к шуму (noise robustness) и способна автоматически определять язык без ручной настройки. Все сгенерированные аудиоматериалы помечаются невидимым водяным знаком SynthID, что позволяет идентифицировать контент, созданный искусственным интеллектом, и снижает риски дезинформации.

Развертывание технологии уже началось в нескольких направлениях:

Для разработчиков модель доступна через Gemini Live API и Google AI Studio.
В корпоративном сегменте стартует закрытое тестирование в Google Meet. Если раньше платформа поддерживала только пять языков и перевод преимущественно с английского или на него, то теперь доступно более 2000 языковых комбинаций.
Для обычных пользователей функция появляется в приложениях Google Translate на Android и iOS.

Интересным дополнением для Android стал «режим прослушивания». Пользователь может приложить телефон к уху, как при обычном звонке, и слушать синхронный перевод через разговорный динамик, не мешая окружающим.

Изображение из источника

Значение для индустрии

Переход к нативным аудиомоделям открывает новые возможности для бизнеса. Разработчики коммуникационных платформ (таких как LiveKit, Agora, Pipecat) уже интегрируют Gemini Live API, беря на себя сложную инфраструктуру потоковой передачи медиа.

Практическая польза технологии хорошо видна на примере компании Grab, которая тестирует модель для обеспечения связи между водителями и туристами. При объеме в 10 миллионов голосовых звонков в месяц бесшовный перевод становится критически важной функцией для качества сервиса.

Взгляд в будущее

Мы наблюдаем переход от текстовых больших языковых моделей (LLM) к мультимодальным системам, способным воспринимать и генерировать информацию в реальном времени.

Пока рано судить, насколько безупречно модель справится со сложными диалектами или узкоспециализированным сленгом в шумной обстановке. Однако текущий релиз ясно показывает направление развития индустрии: технологии синхронного перевода перестают быть отдельными приложениями и становятся базовой функцией любой коммуникационной инфраструктуры.