Multimodal AI
Определение
Мультимодальный AI — системы, способные обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео — одновременно.
Простое объяснение
Это AI, который понимает всё сразу: и текст, и картинки, и звук — как человек, который может читать, смотреть и слушать одновременно.
Подробнее
Примеры мультимодальных моделей:
- GPT-4o — текст, изображения, аудио
- Gemini — нативно мультимодальный
- Claude 3 — текст + изображения
- CLIP — связь текста и изображений
Тренд: переход от single-modal к универсальным моделям.
Связанные термины
Inpainting
Inpainting — техника заполнения выделенных областей изображения новым контентом, сгенерированным AI с учётом контекста.
Diffusion Models
Диффузионные модели — класс генеративных моделей, которые учатся создавать данные путём постепенного удаления шума из случайного входа.
LLaMA
LLaMA (Large Language Model Meta AI) — семейство открытых языковых моделей от Meta, ставшее основой для множества производных моделей.
Token
Токен — минимальная единица текста, обрабатываемая языковой моделью; обычно это слово, часть слова или символ.
