RLHF
Определение
Reinforcement Learning from Human Feedback — метод обучения AI-моделей на основе человеческих предпочтений, используемый для выравнивания поведения модели с человеческими ценностями.
Простое объяснение
RLHF — как обучение собаки не командами, а реакцией хозяина. Собака делает что-то, хозяин показывает одобрение или неодобрение, и собака постепенно учится вести себя так, как нравится хозяину.
Подробнее
Связанные термины
Pre-training
Предобучение — начальный этап обучения AI-модели на огромных объёмах неразмеченных данных для формирования базовых знаний и способностей.
Reinforcement Learning
Обучение с подкреплением — метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
Adapter
Адаптер — небольшой обучаемый модуль, встраиваемый между слоями предобученной модели для её адаптации под новые задачи без изменения основных весов.
Модель
Модель в ML — обученный алгоритм, который принимает входные данные и выдаёт предсказания или генерирует результат.
