Transformer
Определение
Трансформер — архитектура нейронной сети с механизмом внимания (attention), ставшая основой современных языковых моделей и генеративного AI.
Простое объяснение
Это особая конструкция AI, которая умеет смотреть на весь текст сразу и понимать связи между словами, даже если они далеко друг от друга.
Подробнее
Ключевые элементы трансформера:
- Self-attention — связь между всеми токенами
- Multi-head attention — несколько потоков внимания
- Positional encoding — учёт позиции токенов
- Feed-forward — обработка каждого токена
Статья «Attention Is All You Need» (2017) — начало эры LLM.
Связанные термины
Модель
Модель в ML — обученный алгоритм, который принимает входные данные и выдаёт предсказания или генерирует результат.
NLP
Обработка естественного языка (NLP) — область AI, занимающаяся взаимодействием компьютеров с человеческим языком: понимание, генерация, перевод.
Pre-training
Предобучение — начальный этап обучения AI-модели на огромных объёмах неразмеченных данных для формирования базовых знаний и способностей.
Computer Vision
Компьютерное зрение — область AI, которая обучает машины «видеть» и понимать визуальную информацию: изображения и видео.
