Локальная фильтрация данных: как устроена новая модель Pr...

Локальная фильтрация данных: как устроена новая модель Privacy Filter

Компания выпустила открытую модель на 1.5 миллиарда параметров для локального поиска и скрытия персональных данных в текстах.

22.04.2026, 15:41

Обновлено:05.05.2026, 10:12

2 мин чтения

0 просмотров

Компания OpenAI представила Privacy Filter — модель с открытыми весами, предназначенную для поиска и скрытия персональных данных (PII) в неструктурированном тексте. Это важный шаг в сторону создания более безопасной экосистемы разработки, где защита информации закладывается на фундаментальном уровне.

Суть нововведения заключается в том, что разработчики получают инструмент для очистки данных, который можно запускать локально. Это означает, что конфиденциальная информация может быть скрыта до того, как она покинет устройство пользователя или корпоративный сервер.

Традиционные инструменты для поиска персональных данных обычно опираются на детерминированные правила и регулярные выражения. Они хорошо справляются с поиском стандартных форматов, таких как номера телефонов или адреса электронной почты. Однако такие методы часто упускают неочевидную информацию и совершенно не понимают контекст. Например, они не могут отличить публичные данные компании от личного адреса человека.

OAI GPT-Rosaling Art Card 1x1

Privacy Filter решает эту проблему за счет глубокого понимания языка. Модель способна анализировать контекст и принимать более взвешенные решения о том, что именно нужно скрыть.

Технически Privacy Filter представляет собой двунаправленную модель классификации токенов. В отличие от генеративных моделей, которые создают текст шаг за шагом, эта модель размечает всю входную последовательность за один проход.

Размер модели составляет 1.5 миллиарда параметров, из которых при работе активны только 50 миллионов. Она поддерживает контекстное окно до 128 000 токенов, что позволяет эффективно обрабатывать длинные документы.

Модель обучена распознавать восемь категорий данных: имена, адреса, электронные почты, телефоны, ссылки, даты, номера счетов (включая банковские карты) и секреты (например, пароли и ключи API (API keys)).

Локальная фильтрация данных: как устроена новая модель Privacy Filter

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Управление кодом со смартфона: OpenAI интегрирует Codex в мобильное приложение ChatGPT

IBM Granite Embedding Multilingual R2: компактные открытые модели для векторного поиска

Microsoft GridSFM: базовая модель для мгновенной оптимизации электросетей

Гайды по теме