Latency
Определение
Латентность — время задержки между отправкой запроса к AI-системе и получением ответа, критичный показатель для пользовательского опыта.
Простое объяснение
Это сколько времени проходит от момента, когда ты задал вопрос AI, до момента, когда начинает появляться ответ.
Подробнее
Факторы латентности в AI:
- Размер модели — больше параметров = медленнее
- Длина генерации — токены генерируются последовательно
- Сетевая задержка — расстояние до сервера
- Очередь — нагрузка на API
Оптимизация: Edge AI, кэширование, streaming, специализированные чипы.
Связанные термины
Виртуальный ассистент
Виртуальный ассистент — AI-программа для автоматизации задач и помощи пользователям через текстовый или голосовой интерфейс.
OpenAI
OpenAI — американская AI-компания, создатель ChatGPT, GPT-4, DALL-E и других прорывных AI-систем, лидер индустрии генеративного AI.
Шкалирование
Шкалирование (масштабирование) — увеличение мощности AI-системы для обработки большего объёма запросов и данных.
MLOps
MLOps — практики и инструменты для управления жизненным циклом ML-моделей: от разработки до deployment и мониторинга в production.
