DPO
Определение
Direct Preference Optimization — упрощённая альтернатива RLHF, которая напрямую оптимизирует модель на данных предпочтений без необходимости отдельной reward model.
Простое объяснение
Если RLHF — это сложный танец с тремя партнёрами (модель, reward model, RL), то DPO — это простой вальс вдвоём. Результат похожий, но шагов меньше.
Подробнее
Связанные термины
Глубокое обучение
Подмножество машинного обучения, использующее многослойные нейронные сети для анализа данных.
Few-shot Learning
Few-shot Learning — способность модели выполнять новую задачу, увидев лишь несколько примеров в промпте без дополнительного обучения.
LoRA
Low-Rank Adaptation — метод эффективного дообучения больших языковых моделей, который замораживает исходные веса и добавляет небольшие обучаемые матрицы.
QLoRA
Quantized LoRA — усовершенствованная версия LoRA, сочетающая квантизацию модели до 4 бит с адаптацией низкого ранга.
