vLLM
Определение
vLLM — высокопроизводительная библиотека для inference больших языковых моделей, использующая PagedAttention для эффективного управления памятью GPU.
Простое объяснение
vLLM — как умный официант в ресторане, который оптимально распределяет заказы между поварами и не заставляет одних клиентов ждать, пока готовится сложное блюдо для других.
Подробнее
Связанные термины
Распознавание речи
Распознавание речи (ASR) — технология AI для преобразования устной речи в текст, основа голосовых ассистентов и транскрипции.
GPU
Graphics Processing Unit — специализированный процессор, изначально созданный для графики, но оказавшийся идеальным для обучения нейросетей благодаря способности выполнять тысячи параллельных вычислений.
OCR
Оптическое распознавание символов (OCR) — технология AI для преобразования изображений текста (сканов, фото) в редактируемый цифровой текст.
TPU
TPU (Tensor Processing Unit) — специализированный AI-ускоритель, разработанный Google для обучения и inference нейронных сетей.
