Reinforcement Learning
Определение
Обучение с подкреплением — метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
Простое объяснение
Это когда программа учится методом проб и ошибок: делает что-то, получает «хорошо» или «плохо» и постепенно становится лучше.
Подробнее
Применения RL:
- Игры — AlphaGo, Atari
- Робототехника — управление движением
- RLHF — обучение LLM на feedback
- Рекомендации — персонализация
Компоненты: агент, среда, состояния, действия, награды.
Связанные термины
Inference
Инференс — процесс получения предсказаний или результатов от обученной AI-модели на новых входных данных.
Transformer
Трансформер — архитектура нейронной сети с механизмом внимания (attention), ставшая основой современных языковых моделей и генеративного AI.
FlashAttention
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
Модель
Модель в ML — обученный алгоритм, который принимает входные данные и выдаёт предсказания или генерирует результат.
