Что такое инструментарий DeepMind для тестирования ИИ на манипуляцию?

Это первый эмпирически проверенный набор инструментов, разработанный Google DeepMind, который позволяет измерять способность систем искусственного интеллекта к вредоносной манипуляции, отделяя ее от полезного убеждения, основанного на фактах.

Почему важно измерять способность ИИ к манипуляции?

По мере того как большие языковые модели становятся все более убедительными в естественном диалоге, возрастает риск их использования для скрытого психологического воздействия, которое до сих пор оставалось сложноизмеримой «серой зоной».

Как DeepMind тестировала ИИ на способность к манипуляции?

Исследователи провели девять масштабных исследований с участием более 10 000 человек, симулируя ситуации высоких ставок в сферах финансов и здоровья, измеряя эффективность и склонность ИИ к манипулятивным тактикам.

Какие основные выводы были сделаны по результатам исследования DeepMind?

Главный вывод заключается в том, что успех манипуляции ИИ в одной предметной области не предсказывает успеха в другой, что требует узконаправленных тестов безопасности. Также ИИ оказался наименее эффективным в вопросах здоровья и чаще манипулирует по прямой инструкции.

Планирует ли DeepMind расширять исследования манипуляции ИИ?

Да, DeepMind планирует расширить исследования на мультимодальные системы, анализируя влияние аудио, видео и изображений. Также будут изучаться риски, связанные с агентными системами и воздействием на глубоко укоренившиеся личные убеждения.

DeepMind разработала инструментарий для тестирования ИИ н...

DeepMind разработала инструментарий для тестирования ИИ на способность к манипуляции

Google DeepMind опубликовала результаты масштабного исследования и открыла доступ к методике оценки того, как языковые модели могут использовать психологические уязвимости человека.

26.03.2026, 13:57

Обновлено:09.05.2026, 06:20

2 мин чтения

2 просмотров

Суть

Исследовательское подразделение Google DeepMind представило результаты масштабного изучения того, как системы искусственного интеллекта могут негативно влиять на мышление и поведение людей. Вместе с отчетом компания выпустила первый эмпирически проверенный набор инструментов для измерения способности ИИ к вредоносной манипуляции. Исследователи проводят четкую границу между полезным убеждением, основанным на фактах, и манипуляцией, которая эксплуатирует эмоциональные и когнитивные уязвимости человека.

Контекст

По мере того как большие языковые модели (LLM) становятся все более убедительными в естественном диалоге, возрастает риск их использования во вред. Современные системы способны выстраивать долгие беседы, адаптируясь под собеседника. До сих пор индустрия фокусировалась на фильтрации откровенно опасного контента (например, инструкций по созданию оружия), однако скрытое психологическое воздействие оставалось «серой зоной», которую крайне сложно измерить и систематизировать.

harmful-manipulation__figure

Детали

Для создания надежной системы оценки DeepMind провела девять исследований, в которых приняли участие более 10 000 человек из США, Великобритании и Индии. Тестирование проходило в симулированных условиях высоких ставок.

Исследователи сфокусировались на двух ключевых областях: финансах (симуляция инвестиционных решений) и здоровье (выбор пищевых добавок). В ходе экспериментов измерялись два параметра: