Искусственный интеллект становится все более автономным. Современные ИИ-агенты умеют искать информацию в интернете, анализировать документы и выполнять действия от лица пользователя. Однако эти полезные навыки открывают новые векторы для атак. Компания OpenAI опубликовала исследование, в котором объясняет, почему традиционные методы защиты больше не работают, и как архитектура систем должна адаптироваться к новым угрозам.
Главная проблема современности — это инъекции подсказок (prompt injection). Это метод, при котором злоумышленник прячет инструкции во внешнем контенте (например, на веб-странице или в письме), чтобы заставить модель сделать то, о чем пользователь не просил. Со временем эти атаки эволюционировали. Если раньше было достаточно написать на странице Википедии прямую команду для ИИ, то теперь атаки стали гораздо изощреннее.
oai Blog Codex Security Art Card 1x1
По мере того как языковые модели становились умнее, они научились игнорировать примитивные команды. В ответ хакеры начали использовать методы социальной инженерии. Например, злоумышленник может прислать электронное письмо, замаскированное под сообщение от отдела кадров. В нем содержится сложный контекст: упоминание реструктуризации, срочные задачи и скрытая инструкция для ИИ-ассистента — извлечь личные данные сотрудника и отправить их на сторонний сервер для «проверки».
В индустрии кибербезопасности долгое время считалось, что решением проблемы станут ИИ-файрволы (AI firewalling). Это промежуточные системы, которые пытаются классифицировать входящий текст на нормальный и вредоносный. Однако на практике выявить сложную социальную инженерию таким способом почти невозможно. Для системы это равносильно попытке распознать ложь или дезинформацию без полного понимания контекста.
Осознав это, инженеры OpenAI изменили подход. Вместо того чтобы пытаться создать идеальный фильтр, они начали рассматривать ИИ-агентов через призму управления рисками, применимую к людям. Представьте оператора службы поддержки: он хочет помочь клиентам компании, но постоянно сталкивается с мошенниками, которые пытаются его обмануть или запугать. Чтобы минимизировать риски, компания не просто учит оператора распознавать ложь, но и вводит жесткие лимиты на его действия — например, ограничивает сумму возврата средств без одобрения менеджера.
Этот же принцип применяется в ChatGPT. OpenAI использует метод анализа «источник-приемник» (source-sink analysis). Атака может быть успешной только тогда, когда внешний источник информации (source) соединяется с уязвимой функцией (sink) — например, с возможностью отправить данные третьей стороне. Главная цель безопасности состоит в том, чтобы потенциально опасные действия никогда не происходили скрытно.
Для защиты пользователей была разработана система Safe Url. Если злоумышленнику удается обмануть агента и убедить его передать секретную информацию из переписки на внешний сервер, система перехватывает это действие. Она либо полностью блокирует передачу данных, предлагая агенту найти другой путь решения задачи, либо показывает пользователю, какая именно информация будет отправлена, и запрашивает явное подтверждение.
Подобные механизмы песочниц (sandbox) и запросов разрешений внедрены во все новые продукты компании, включая инструменты для программирования и глубокого поиска. В будущем, по мере роста автономности систем, интеграция ИИ потребует внедрения тех же протоколов контроля, которые сегодня применяются к сотрудникам, имеющим доступ к чувствительной информации. Безопасность будет зависеть не от того, насколько ИИ доверчив, а от того, насколько ограничены его возможности нанести вред.