Speculative Decoding
Определение
Speculative Decoding — метод ускорения inference LLM, где маленькая модель генерирует черновые токены, а большая модель верифицирует их параллельно.
Простое объяснение
Speculative Decoding — как работа главного редактора с младшим. Младший быстро пишет черновик, главный за один просмотр принимает хорошие абзацы и отмечает плохие для переработки.
Подробнее
Связанные термины
FlashAttention
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
VAE
Variational Autoencoder — генеративная модель, которая учится кодировать данные в компактное латентное пространство и декодировать обратно, используя вероятностный подход.
QLoRA
Quantized LoRA — усовершенствованная версия LoRA, сочетающая квантизацию модели до 4 бит с адаптацией низкого ранга.
Reinforcement Learning
Обучение с подкреплением — метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
