DPO
Определение
Direct Preference Optimization — упрощённая альтернатива RLHF, которая напрямую оптимизирует модель на данных предпочтений без необходимости отдельной reward model.
Простое объяснение
Если RLHF — это сложный танец с тремя партнёрами (модель, reward model, RL), то DPO — это простой вальс вдвоём. Результат похожий, но шагов меньше.
Подробнее
Связанные термины
Inference
Инференс — процесс получения предсказаний или результатов от обученной AI-модели на новых входных данных.
Fine-tuning
Дообучение — процесс адаптации предобученной AI-модели к конкретной задаче или домену путём дополнительного обучения на специализированных данных.
Модель
Модель в ML — обученный алгоритм, который принимает входные данные и выдаёт предсказания или генерирует результат.
Self-Attention
Самовнимание — разновидность attention, где каждый элемент последовательности сравнивается со всеми остальными элементами той же последовательности.
