Multimodal
Определение
Multimodal — способность AI-системы обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео.
Простое объяснение
Multimodal — как AI с несколькими органами чувств. Может видеть, слышать, читать — и понимать связи между всем этим.
Подробнее
Связанные термины
Text-to-Speech
Text-to-Speech (TTS) — технология преобразования текста в естественно звучащую речь с помощью нейронных сетей.
Generative AI
Генеративный AI — системы искусственного интеллекта, способные создавать новый контент: тексты, изображения, музыку, видео, код.
DALL-E
DALL-E — модель генерации изображений от OpenAI, названная в честь художника Дали и робота WALL-E.
LLM
Большая языковая модель (LLM) — нейронная сеть с миллиардами параметров, обученная на огромных текстовых корпусах для понимания и генерации естественного языка.
