Red Teaming

Определение

Red Teaming — практика систематического тестирования AI-систем на уязвимости путём симуляции атак злоумышленников.

Простое объяснение

Red Teaming — как краш-тест для AI. Специалисты намеренно пытаются "сломать" систему всеми способами, чтобы найти и исправить слабые места до выхода к пользователям.

Подробнее

В контексте AI red teaming включает: поиск jailbreaks, тестирование на bias и дискриминацию, проверку на генерацию вредного контента, оценку устойчивости к манипуляциям. OpenAI, Anthropic, Google проводят extensive red teaming перед релизом моделей. Crowdsourced red teaming привлекает внешних исследователей. Автоматизированный red teaming использует другие LLM для генерации атак. Результаты red teaming используются для улучшения alignment и добавления guardrails.

Определение

Простое объяснение

Подробнее

Связанные термины

Сверхразум

Constitutional AI

Data Privacy

XAI

Model Card

Explainable AI