Quantization
Определение
Квантизация — техника сжатия AI-моделей путём уменьшения точности чисел (например, с 32-bit до 4-bit), ускоряющая инференс и снижающая требования к памяти.
Простое объяснение
Это способ сделать AI-модель меньше и быстрее, немного упростив вычисления — как сжатие фотографии.
Подробнее
Типы квантизации:
- Post-training (PTQ) — после обучения
- Quantization-aware (QAT) — во время обучения
- GPTQ, GGML, AWQ — форматы для LLM
Квантизация позволяет запускать LLM на обычных компьютерах и смартфонах.
Связанные термины
Scaling Laws
Scaling Laws — эмпирические закономерности, связывающие производительность модели с её размером, объёмом данных и compute.
LoRA
Low-Rank Adaptation — метод эффективного дообучения больших языковых моделей, который замораживает исходные веса и добавляет небольшие обучаемые матрицы.
Few-shot Learning
Few-shot Learning — способность модели выполнять новую задачу, увидев лишь несколько примеров в промпте без дополнительного обучения.
Inference
Инференс — процесс получения предсказаний или результатов от обученной AI-модели на новых входных данных.
