KV Cache

Определение

KV Cache — механизм кэширования ключей (Keys) и значений (Values) в трансформерах для ускорения авторегрессивной генерации.

Простое объяснение

KV Cache — как заметки при решении длинной задачи. Вместо того чтобы каждый раз пересчитывать промежуточные результаты, вы записываете их и используете повторно.

Подробнее

При генерации текста трансформер должен вычислять attention со всеми предыдущими токенами. Без кэширования это O(n²) операций для каждого нового токена. KV Cache сохраняет вычисленные K и V для всех предыдущих токенов, позволяя вычислять attention только для нового токена. Это критически важно для быстрой генерации, но требует памяти, пропорциональной длине контекста. Оптимизации KV Cache (PagedAttention, sliding window) — активная область исследований.

Определение

Простое объяснение

Подробнее

Связанные термины

RLHF

VAE

Zero-shot Learning

Жизненный цикл модели

Scaling Laws

Emergent Abilities