Vision-Language Model
Определение
Vision-Language Model — мультимодальная модель, способная обрабатывать и понимать как изображения, так и текст, отвечая на вопросы о визуальном контенте.
Простое объяснение
Vision-Language Model — как эксперт, который может и смотреть на картину, и обсуждать её. Он видит изображение и отвечает на вопросы о нём на человеческом языке.
Подробнее
Связанные термины
Запрос
Запрос (промпт) — текстовая инструкция или вопрос, отправляемый пользователем языковой модели для получения ответа.
Inpainting
Inpainting — техника заполнения выделенных областей изображения новым контентом, сгенерированным AI с учётом контекста.
Фундаментальная модель
Фундаментальная модель — большая AI-модель общего назначения, обученная на огромных данных и адаптируемая для множества задач.
Multimodal
Multimodal — способность AI-системы обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео.
