Contamination
Определение
Contamination (утечка данных) — проблема попадания тестовых данных в обучающую выборку, что приводит к завышенным результатам на бенчмарках.
Простое объяснение
Contamination — как студент, который случайно увидел экзаменационные вопросы заранее. Его высокая оценка не отражает реальных знаний, только хорошую память.
Подробнее
Связанные термины
Семантический поиск
Семантический поиск — поиск информации по смыслу, а не по ключевым словам, с использованием эмбеддингов и векторных баз данных.
Named Entity Recognition
Named Entity Recognition (NER) — извлечение из текста именованных сущностей: людей, организаций, мест, дат, сумм и других.
Recommendation System
Recommendation System — алгоритм, предсказывающий предпочтения пользователя и предлагающий релевантный контент или продукты.
Text Classification
Text Classification — автоматическое присвоение текстам категорий или меток на основе их содержания.
