SafeCtrl:検出して抑制することで実現するテキストから画像への拡散モデル向け、領域認識型のセーフティ制御

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全上有害な出力(例:性的コンテンツ、暴力、ホラー)を対象とした、テキストから画像への拡散モデル向けの領域認識型セーフティ制御フレームワークであるSafeCtrlを提案する。
  • SafeCtrlは「Detect-Then-Suppress(検出して抑制)」のパイプラインを用いる。注意(attention)に導かれたDetectモジュールがリスク領域を局在化し、その後のSuppressモジュールがそれらの領域内だけで有害な意味を無力化する。
  • Suppressモジュールは、入力フィルタリングや概念消去のようなグローバルな安全介入と比べて、文脈と忠実性をより良く保持できるように、画像レベルのDirect Preference Optimization(DPO)で最適化される。
  • 複数のリスクカテゴリにわたる実験により、先行する最先端手法に比べて安全性と忠実性のトレードオフが改善することが示される。
  • 本アプローチは、敵対的なプロンプト攻撃に対してより頑健であると報告されており、責任ある導入に向けた耐性の強さが示唆される。

要旨: テキストから画像を生成する拡散モデルの広範な導入は、性的に露骨な内容、暴力、ホラー画像のような視覚的に有害なコンテンツの生成によって大きく妨げられている。入力フィルタリングからモデルの概念の消去(concept erasure)までの一般的な安全対策は、しばしば2つの重要な制約を抱えている: (1) 安全性と文脈保持の間の深刻なトレードオフであり、危険な概念を取り除くと安全なコンテンツの忠実度が低下する、そして(2) 敵対的攻撃への脆弱性であり、安全メカニズムが容易に回避される。これらの課題に対処するため、我々はSafeCtrlを提案する。SafeCtrlは、Detect-Then-Suppress(検出して抑制する)というパラダイムに基づき動作する、領域認識型の安全制御フレームワークである。グローバルな安全対策とは異なり、SafeCtrlはまず、注意(attention)に導かれたDetectモジュールを用いて、特定のリスク領域を正確に局在化する。続いて、画像レベルのDirect Preference Optimization(DPO)によって最適化された局所的なSuppressモジュールが、検出された領域内でのみ有害な意味を中和し、危険な対象を安全な代替へと実質的に変換する一方で、周辺の文脈はそのまま維持する。複数のリスクカテゴリにわたる大規模な実験により、SafeCtrlが最先端手法と比べて安全性と忠実度のトレードオフにおいて優れた性能を達成することが示される。とりわけ、本アプローチは敵対的プロンプト攻撃に対する耐性が向上しており、責任ある生成に向けた正確で頑健な解決策を提供する。