XAI
Определение
XAI (Explainable AI) — подход к созданию AI-систем, чьи решения и процесс рассуждений можно объяснить и понять человеку.
Простое объяснение
Это когда AI может объяснить, почему принял такое решение — не просто дать ответ, а показать свои «рассуждения».
Подробнее
Методы XAI:
- LIME — локальные объяснения
- SHAP — важность признаков
- Attention visualization — визуализация внимания
- Counterfactual — «что если» сценарии
Требуется регуляторами (EU AI Act) для высокорисковых применений.
Связанные термины
Guardrails
Guardrails — защитные механизмы, ограничивающие поведение AI-модели и предотвращающие генерацию вредного или нежелательного контента.
Constitutional AI
Constitutional AI — подход Anthropic к созданию безопасного AI, где модель обучается следовать набору принципов (конституции) через самокритику и ревизию.
Jailbreak
Jailbreak — техники обхода встроенных ограничений AI-модели для получения запрещённых ответов или нежелательного поведения.
Red Teaming
Red Teaming — практика систематического тестирования AI-систем на уязвимости путём симуляции атак злоумышленников.
