Synthetic Data
Определение
Синтетические данные — искусственно сгенерированные данные, имитирующие реальные, используемые для обучения AI при недостатке или конфиденциальности реальных данных.
Простое объяснение
Это когда AI создаёт «придуманные» данные, которые выглядят как настоящие, для обучения других AI.
Подробнее
Применение синтетических данных:
- Приватность — замена персональных данных
- Редкие случаи — генерация edge cases
- Балансировка — выравнивание классов
- Разметка — автоматическая аннотация
Генераторы: NVIDIA Omniverse, Mostly AI, Gretel.
Связанные термины
Question Answering
Question Answering (QA) — задача автоматического ответа на вопросы на естественном языке на основе текста или базы знаний.
Anomaly Detection
Anomaly Detection — автоматическое выявление необычных паттернов, выбросов или аномалий в данных.
Семантический поиск
Семантический поиск — поиск информации по смыслу, а не по ключевым словам, с использованием эмбеддингов и векторных баз данных.
Text Classification
Text Classification — автоматическое присвоение текстам категорий или меток на основе их содержания.
