KV Cache
Определение
KV Cache — механизм кэширования ключей (Keys) и значений (Values) в трансформерах для ускорения авторегрессивной генерации.
Простое объяснение
KV Cache — как заметки при решении длинной задачи. Вместо того чтобы каждый раз пересчитывать промежуточные результаты, вы записываете их и используете повторно.
Подробнее
Связанные термины
Quantization
Квантизация — техника сжатия AI-моделей путём уменьшения точности чисел (например, с 32-bit до 4-bit), ускоряющая инференс и снижающая требования к памяти.
MoE
Mixture of Experts — архитектура нейросети, состоящая из множества специализированных подсетей (экспертов) и маршрутизатора, который направляет входные данные к наиболее подходящим экспертам.
Unsupervised Learning
Обучение без учителя — тип машинного обучения, при котором модель находит скрытые паттерны в данных без предварительной разметки.
Speculative Decoding
Speculative Decoding — метод ускорения inference LLM, где маленькая модель генерирует черновые токены, а большая модель верифицирует их параллельно.
