SafeRedirect:タスク完了のリダイレクトで前線LLMにおける内部安全崩壊(ISC)を打ち破る

arXiv cs.LG / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 内部安全崩壊(ISC)は、正当な専門的タスクの遂行中に、完了の構造上が有害内容を必要とする場合、前線LLMが安全に失敗したまま有害コンテンツを自発生成してしまい、安全性の失敗率が95%以上に達する失敗モードとして説明されています。
  • 本論文はSafeRedirectを提案し、入力抑制ではなくシステムレベルでモデルの「タスク完了への駆動」を変更することでISCを無力化します。具体的には、失敗を明示的に許可し、決定論的なハードストップ出力を課し、有害プレースホルダを未解決のまま保持させます。
  • 7つの前線LLMと3種類のISC関連タスク(シングルターン設定)で評価した結果、SafeRedirectは平均の危険な生成率を71.2%から8.0%へ引き下げ、最強の実行可能ベースライン(55.0%)より大幅に改善しています。
  • アブレーション解析とクロス攻撃評価では、「失敗を許可すること」と「条件の具体性」がモデル横断で普遍的に重要であり、その他の構成要素の重要度はモデルによって異なることが示されています。
  • 著者は、再現と評価のための実装を提示するGitHubリンクも公開しています。

Abstract

内部安全崩壊(ISC)は、最先端のLLMが、正当な専門的タスクを実行する際に、その正しい完了が構造的に有害なコンテンツを必要とする場合、突如としてそのコンテンツを生成してしまい、安全性の失敗率が95%を超えるという失敗モードである。既存の入力レベルの防御は、ISCに対して100%の失敗率を達成しているが、標準的なシステムプロンプトによる防御では部分的な軽減に留まる。私たちは、モデルのタスク完了への駆動を抑制するのではなく、それをリダイレクトすることでISCを打ち破るシステムレベルのオーバーライドであるSafeRedirectを提案する。SafeRedirectは、タスクに失敗することを明示的に許可し、決定論的なハードストップの出力を規定し、有害なプレースホルダを未解決のまま保持するようモデルに指示する。単一ターン設定において、AI/ML関連のISCタスクタイプ3種類にまたがる7つの最先端LLMで評価した結果、SafeRedirectは平均の危険な生成率を71.2%から8.0%に低減した。これは、最も強力な実行可能なベースライン(55.0%)と比較して大きく改善している。マルチモデルのアブレーションでは、「失敗の許可」と「条件の特異性」が普遍的に重要である一方、その他の構成要素の重要性はモデルによって異なることが明らかになった。クロス攻撃による評価では、他の攻撃ファミリに対してもベースラインと少なくとも同等の汎化性能を示し、ISCに対する最先端の防御が確認された。コードは https://github.com/fzjcdt/SafeRedirect で公開されている。