Датасет
Определение
Датасет — набор данных, используемый для обучения, валидации и тестирования AI-моделей.
Простое объяснение
Это набор данных для обучения AI — как учебник с примерами и правильными ответами.
Подробнее
Характеристики качественного датасета:
- Размер — достаточный объём данных
- Качество — чистые, корректные данные
- Репрезентативность — отражает реальность
- Разметка — правильные метки
Известные датасеты: ImageNet, Common Crawl, The Pile.
Связанные термины
Data Labeling
Data Labeling — процесс разметки данных людьми для создания обучающих выборок для supervised learning моделей.
BLEU/ROUGE
BLEU и ROUGE — классические метрики для оценки качества генерации текста путём сравнения с эталонными ответами.
Sentiment Analysis
Sentiment Analysis — автоматическое определение эмоциональной окраски текста: позитивной, негативной или нейтральной.
Recommendation System
Recommendation System — алгоритм, предсказывающий предпочтения пользователя и предлагающий релевантный контент или продукты.
