Multimodal AI
Определение
Мультимодальный AI — системы, способные обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео — одновременно.
Простое объяснение
Это AI, который понимает всё сразу: и текст, и картинки, и звук — как человек, который может читать, смотреть и слушать одновременно.
Подробнее
Примеры мультимодальных моделей:
- GPT-4o — текст, изображения, аудио
- Gemini — нативно мультимодальный
- Claude 3 — текст + изображения
- CLIP — связь текста и изображений
Тренд: переход от single-modal к универсальным моделям.
Связанные термины
Запрос
Запрос (промпт) — текстовая инструкция или вопрос, отправляемый пользователем языковой модели для получения ответа.
Hallucination
Галлюцинация AI — генерация языковой моделью информации, которая выглядит правдоподобно, но является фактически неверной или выдуманной.
Outpainting
Outpainting — расширение границ изображения за пределы оригинала с генерацией нового контента, соответствующего стилю и содержанию.
RAG
RAG (Retrieval-Augmented Generation) — архитектура, дополняющая LLM актуальной информацией из внешних источников через поиск перед генерацией ответа.
