Reinforcement Learning
Определение
Обучение с подкреплением — метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
Простое объяснение
Это когда программа учится методом проб и ошибок: делает что-то, получает «хорошо» или «плохо» и постепенно становится лучше.
Подробнее
Применения RL:
- Игры — AlphaGo, Atari
- Робототехника — управление движением
- RLHF — обучение LLM на feedback
- Рекомендации — персонализация
Компоненты: агент, среда, состояния, действия, награды.
Связанные термины
PEFT
Parameter-Efficient Fine-Tuning — семейство методов дообучения моделей, которые обновляют лишь малую часть параметров, сохраняя качество полного fine-tuning.
Neural Network
Нейронная сеть — вычислительная система, вдохновлённая структурой мозга, состоящая из связанных узлов (нейронов), обрабатывающих информацию слоями.
Глубокое обучение
Подмножество машинного обучения, использующее многослойные нейронные сети для анализа данных.
Scaling Laws
Scaling Laws — эмпирические закономерности, связывающие производительность модели с её размером, объёмом данных и compute.
