Guardrails

Определение

Guardrails — защитные механизмы, ограничивающие поведение AI-модели и предотвращающие генерацию вредного или нежелательного контента.

Простое объяснение

Guardrails — как ограждения на горной дороге. Не мешают ехать, но не дают свалиться в пропасть. AI может многое, но некоторые направления заблокированы.

Подробнее

Guardrails работают на нескольких уровнях: input filtering (блокировка опасных запросов), output filtering (проверка ответов), behavioral training (RLHF/Constitutional AI), system prompts (инструкции поведения). NeMo Guardrails от NVIDIA предоставляет programmable rails. Guardrails AI — open-source фреймворк для валидации. Проблемы: false positives (блокировка легитимных запросов), обход через jailbreaks, balance между безопасностью и полезностью. Корпоративные deployment требуют кастомных guardrails под policy компании.

Определение

Простое объяснение

Подробнее

Связанные термины

AI Alignment

Model Collapse

Этика AI

Галлюцинации AI

Watermarking

Jailbreak