Latency
Определение
Латентность — время задержки между отправкой запроса к AI-системе и получением ответа, критичный показатель для пользовательского опыта.
Простое объяснение
Это сколько времени проходит от момента, когда ты задал вопрос AI, до момента, когда начинает появляться ответ.
Подробнее
Факторы латентности в AI:
- Размер модели — больше параметров = медленнее
- Длина генерации — токены генерируются последовательно
- Сетевая задержка — расстояние до сервера
- Очередь — нагрузка на API
Оптимизация: Edge AI, кэширование, streaming, специализированные чипы.
Связанные термины
ElevenLabs
ElevenLabs — платформа для синтеза речи и клонирования голоса с помощью AI, создающая наиболее реалистичное звучание.
Perplexity AI
Perplexity AI — поисковая система на базе AI, которая отвечает на вопросы с указанием источников вместо списка ссылок.
Vector Database
Векторная база данных — специализированное хранилище для эмбеддингов, оптимизированное для семантического поиска по сходству векторов.
LangChain
LangChain — популярный open-source фреймворк для создания приложений на базе LLM, предоставляющий абстракции для chains, agents, RAG и memory.
