Google представила Gemini 3.1 Flash TTS: фокус на режиссерском управлении ИИ-речью
Новая модель синтеза речи от Google предлагает управление интонациями через текстовые теги, поддержку более 70 языков и встроенную маркировку SynthID.

Google анонсировала выпуск Gemini 3.1 Flash TTS — нового поколения моделей для синтеза речи (Text-to-Speech). Главным нововведением стала не только улучшенная естественность звучания, но и внедрение системы звуковых тегов (audio tags), которая позволяет разработчикам управлять генерацией голоса с режиссерской точностью.
Долгое время на рынке ИИ-синтеза речи доминировали решения, которые выдавали качественный, но слабо контролируемый результат. Разработчикам часто приходилось полагаться на случайность или перегенерировать аудио десятки раз, чтобы добиться нужной интонации для конкретного слова. С выходом Gemini 3.1 Flash TTS фокус смещается от простой озвучки текста к созданию полноценных и управляемых аудиосцен.

Gemini logo next to the text "3.1 Flash TTS", all over colored dots
Ключевая техническая особенность новой модели — гранулярный контроль через команды на естественном языке. В среде Google AI Studio появились инструменты, позволяющие задавать контекст сцены, уникальные профили говорящих и так называемые «режиссерские заметки» (Director's Notes). С помощью встроенных тегов можно менять темп, тон и акцент прямо посреди предложения. Это позволяет ИИ-персонажам оставаться в своей роли и естественно взаимодействовать в многоголосых диалогах.
Модель поддерживает более 70 языков, что делает ее инструментом глобального масштаба. По данным независимого бенчмарка Artificial Analysis, который собирает тысячи слепых тестирований пользователями, Gemini 3.1 Flash TTS получила рейтинг Elo 1211. Аналитики отмечают удачный баланс между высоким качеством генерации и низкой стоимостью использования (API).
Важным аспектом релиза стала безопасность. Весь аудиоконтент, сгенерированный с помощью Gemini 3.1 Flash TTS, автоматически помечается невидимым водяным знаком SynthID. Этот алгоритм встраивается непосредственно в аудиосигнал, позволяя надежно определять синтезированную речь и снижая риски распространения дезинформации.




