Text-to-Speech

Современные TTS системы используют нейросети для генерации речи, неотличимой от человеческой. ElevenLabs позволяет клонировать голос по нескольким секундам записи. OpenAI TTS предлагает несколько естественных голосов через API. XTTS, Bark, Tortoise — открытые альтернативы. Технологии включают: acoustic models (генерация mel-спектрограмм), vocoders (преобразование спектрограмм в аудио), prosody modeling (интонация, ритм). Применения: озвучка контента, accessibility, виртуальные ассистенты.

Определение

Простое объяснение

Подробнее

Связанные термины

Prompt Engineering

Vision-Language Model

Gemini

Фундаментальная модель

LLM

Hallucination