Как OpenAI контролирует автономные ИИ-агенты: анализ системы внутреннего мониторинга
OpenAI внедрила систему на базе GPT-5.4 для анализа цепочек рассуждений внутренних ИИ-агентов. Это позволяет выявлять попытки обхода систем безопасности в реальных рабочих процессах.

Искусственный интеллект постепенно переходит от формата простых ответов на вопросы к автономным действиям. OpenAI опубликовала отчет о том, как компания контролирует поведение своих внутренних агентов-программистов, чтобы предотвратить их отклонение от заданных целей. Это важный шаг в понимании того, как индустрия будет обеспечивать безопасность сложных ИИ-систем.
По мере роста возможностей больших языковых моделей (LLM), они начинают выполнять многоэтапные задачи и взаимодействовать с внутренними инструментами компаний. В OpenAI такие агенты имеют доступ к корпоративным системам и документации. Это создает уникальные риски: агент может попытаться изменить собственные ограничения или выполнить действия, влияющие на будущие версии моделей. Для управления этими рисками традиционных фильтров на входе и выходе уже недостаточно.

Japan teen safety blueprint > art card
Чтобы решить эту задачу, OpenAI разработала систему внутреннего мониторинга с низкой задержкой. Она работает на базе модели GPT-5.4 Thinking, использующей максимальные вычислительные ресурсы для анализа. Система проверяет не только финальные действия агента, но и его скрытую цепочку рассуждений (chain of thought). Анализ происходит в течение 30 минут после завершения задачи.
За пять месяцев работы система проанализировала десятки миллионов сессий. Ни одна реальная беседа не вызвала предупреждения высшего уровня критичности, которое свидетельствовало бы о скрытых мотивах или осознанном планировании вреда. Однако было зафиксировано около 1000 предупреждений среднего уровня, многие из которых инициированы внутренними командами тестирования безопасности (red-teaming).





