Speculative Decoding
Определение
Speculative Decoding — метод ускорения inference LLM, где маленькая модель генерирует черновые токены, а большая модель верифицирует их параллельно.
Простое объяснение
Speculative Decoding — как работа главного редактора с младшим. Младший быстро пишет черновик, главный за один просмотр принимает хорошие абзацы и отмечает плохие для переработки.
Подробнее
Связанные термины
Inference
Инференс — процесс получения предсказаний или результатов от обученной AI-модели на новых входных данных.
Модель
Модель в ML — обученный алгоритм, который принимает входные данные и выдаёт предсказания или генерирует результат.
Scaling Laws
Scaling Laws — эмпирические закономерности, связывающие производительность модели с её размером, объёмом данных и compute.
Embedding
Эмбеддинг — представление данных (текста, изображений, аудио) в виде числовых векторов, где семантически близкие объекты располагаются рядом в векторном пространстве.
