Multimodal
Определение
Multimodal — способность AI-системы обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео.
Простое объяснение
Multimodal — как AI с несколькими органами чувств. Может видеть, слышать, читать — и понимать связи между всем этим.
Подробнее
Связанные термины
Языковая модель
Языковая модель — AI-система, обученная понимать и генерировать текст на естественном языке, предсказывая вероятность следующего слова или токена.
Большая языковая модель
Нейросеть с миллиардами параметров, обученная на огромных текстовых данных для понимания и генерации текста.
RAG
RAG (Retrieval-Augmented Generation) — архитектура, дополняющая LLM актуальной информацией из внешних источников через поиск перед генерацией ответа.
ControlNet
ControlNet — метод точного управления генерацией изображений через дополнительные условия: позы, края, глубину, скетчи.
