DPO

DPO переформулирует задачу RLHF как supervised learning task. Вместо обучения reward model и последующей RL-оптимизации, DPO напрямую увеличивает вероятность предпочитаемых ответов и уменьшает вероятность отвергнутых. Математически DPO эквивалентен RLHF с определённой формой reward, но значительно проще в реализации и стабильнее в обучении. Используется в Zephyr, Neural Chat и многих других открытых моделях.

Определение

Простое объяснение

Подробнее

Связанные термины

Quantization

Latent Space

LoRA

Фича

Neural Network

Fine-tuning