Локальная фильтрация данных: как устроена новая модель Privacy Filter
Компания выпустила открытую модель на 1.5 миллиарда параметров для локального поиска и скрытия персональных данных в текстах.

Компания OpenAI представила Privacy Filter — модель с открытыми весами, предназначенную для поиска и скрытия персональных данных (PII) в неструктурированном тексте. Это важный шаг в сторону создания более безопасной экосистемы разработки, где защита информации закладывается на фундаментальном уровне.
Суть нововведения заключается в том, что разработчики получают инструмент для очистки данных, который можно запускать локально. Это означает, что конфиденциальная информация может быть скрыта до того, как она покинет устройство пользователя или корпоративный сервер.
Традиционные инструменты для поиска персональных данных обычно опираются на детерминированные правила и регулярные выражения. Они хорошо справляются с поиском стандартных форматов, таких как номера телефонов или адреса электронной почты. Однако такие методы часто упускают неочевидную информацию и совершенно не понимают контекст. Например, они не могут отличить публичные данные компании от личного адреса человека.

OAI GPT-Rosaling Art Card 1x1
Privacy Filter решает эту проблему за счет глубокого понимания языка. Модель способна анализировать контекст и принимать более взвешенные решения о том, что именно нужно скрыть.
Технически Privacy Filter представляет собой двунаправленную модель классификации токенов. В отличие от генеративных моделей, которые создают текст шаг за шагом, эта модель размечает всю входную последовательность за один проход.
Размер модели составляет 1.5 миллиарда параметров, из которых при работе активны только 50 миллионов. Она поддерживает контекстное окно до 128 000 токенов, что позволяет эффективно обрабатывать длинные документы.
Модель обучена распознавать восемь категорий данных: имена, адреса, электронные почты, телефоны, ссылки, даты, номера счетов (включая банковские карты) и секреты (например, пароли и ключи API (API keys)).





