Synthetic Data
Определение
Синтетические данные — искусственно сгенерированные данные, имитирующие реальные, используемые для обучения AI при недостатке или конфиденциальности реальных данных.
Простое объяснение
Это когда AI создаёт «придуманные» данные, которые выглядят как настоящие, для обучения других AI.
Подробнее
Применение синтетических данных:
- Приватность — замена персональных данных
- Редкие случаи — генерация edge cases
- Балансировка — выравнивание классов
- Разметка — автоматическая аннотация
Генераторы: NVIDIA Omniverse, Mostly AI, Gretel.
Связанные термины
Object Detection
Object Detection — задача компьютерного зрения: найти объекты на изображении и определить их классы и положение.
Big Data
Большие данные — массивы информации огромного объёма, которые невозможно обработать традиционными методами, но которые служат основой для обучения AI-моделей.
Датасет
Датасет — набор данных, используемый для обучения, валидации и тестирования AI-моделей.
Contamination
Contamination (утечка данных) — проблема попадания тестовых данных в обучающую выборку, что приводит к завышенным результатам на бенчмарках.
