Датасет
Определение
Датасет — набор данных, используемый для обучения, валидации и тестирования AI-моделей.
Простое объяснение
Это набор данных для обучения AI — как учебник с примерами и правильными ответами.
Подробнее
Характеристики качественного датасета:
- Размер — достаточный объём данных
- Качество — чистые, корректные данные
- Репрезентативность — отражает реальность
- Разметка — правильные метки
Известные датасеты: ImageNet, Common Crawl, The Pile.
Связанные термины
Хранилище данных
Хранилище данных (Data Warehouse) — централизованная система для хранения и анализа больших объёмов структурированных данных для бизнес-аналитики и AI.
Semantic Segmentation
Semantic Segmentation — классификация каждого пикселя изображения по принадлежности к семантическому классу.
Retrieval
Retrieval — поиск и извлечение релевантной информации из базы данных или корпуса документов по запросу.
Text Classification
Text Classification — автоматическое присвоение текстам категорий или меток на основе их содержания.
