Speculative Decoding

Определение

Speculative Decoding — метод ускорения inference LLM, где маленькая модель генерирует черновые токены, а большая модель верифицирует их параллельно.

Простое объяснение

Speculative Decoding — как работа главного редактора с младшим. Младший быстро пишет черновик, главный за один просмотр принимает хорошие абзацы и отмечает плохие для переработки.

Подробнее

Speculative Decoding использует тот факт, что проверить несколько токенов можно за одно обращение к большой модели. Маленькая "draft" модель (7B) быстро генерирует k токенов-кандидатов, затем большая "target" модель (70B) за один forward pass проверяет их все. Принятые токены используются, отвергнутые — перегенерируются. При высоком acceptance rate это даёт 2-3x ускорение без потери качества. Используется в Medusa, SpecInfer, Google PaLM.

Определение

Простое объяснение

Подробнее

Связанные термины

KV Cache

Scaling Laws

Self-Attention

FlashAttention

Adapter

Модель