SafeRedirect:タスク完了のリダイレクトで前線LLMにおける内部安全崩壊(ISC)を打ち破る
arXiv cs.LG / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 内部安全崩壊(ISC)は、正当な専門的タスクの遂行中に、完了の構造上が有害内容を必要とする場合、前線LLMが安全に失敗したまま有害コンテンツを自発生成してしまい、安全性の失敗率が95%以上に達する失敗モードとして説明されています。
- 本論文はSafeRedirectを提案し、入力抑制ではなくシステムレベルでモデルの「タスク完了への駆動」を変更することでISCを無力化します。具体的には、失敗を明示的に許可し、決定論的なハードストップ出力を課し、有害プレースホルダを未解決のまま保持させます。
- 7つの前線LLMと3種類のISC関連タスク(シングルターン設定)で評価した結果、SafeRedirectは平均の危険な生成率を71.2%から8.0%へ引き下げ、最強の実行可能ベースライン(55.0%)より大幅に改善しています。
- アブレーション解析とクロス攻撃評価では、「失敗を許可すること」と「条件の具体性」がモデル横断で普遍的に重要であり、その他の構成要素の重要度はモデルによって異なることが示されています。
- 著者は、再現と評価のための実装を提示するGitHubリンクも公開しています。


