Disciplined Diffusion：NSFW生成に対抗するテキストから画像への拡散モデル

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

テキストから画像（T2I）の拡散モデルは、悪意のあるプロンプトによってNSFWや有害な画像を生成し得る一方、一般的な安全対策は許可／遮断の二値フィルタであるため、回避攻撃に弱く誤検知も起きやすい。
提案手法のDisciplined Diffusion（DDiffusion）は、脆いキーワード／ペアワイズ類似度に頼らず、プロンプト埋め込み中の暗黙の有害セマンティクスを見抜くことで頑健性を高めることを狙っている。
DDiffusionはセマンティック検索によって概念分布に照らしてプロンプトを評価し、さらに拡散過程で有害領域のみを局所的に編集するローカライゼーション手法を導入する。
全体を一律にブロックするのではなく、有害な部分を局所的にサニタイズした画像を返すことで、有害コンテンツを抑えつつ良性プロンプトの生成品質を維持し、二値シグナルに依存する既存の探索／回避の余地を減らすことを目指している。

要旨: テキストから画像へ（T2I）の拡散モデルは、テキストプロンプトから高品質な画像を生成する能力を持ちますが、有害な入力が与えられると攻撃的または不快なイメージを生成してしまうため、安全性に関する懸念があります。既存の安全フィルタは一般に、脅威を検出すると出力を完全にブロックし、ユーザーに対して明示的な許可／ブロックのフィードバック信号を返すテキストベースの分類器、または画像ベースのチェッカーに依存しています。この二値戦略は、キーワードを改変して検出を回避するような敵対的攻撃に対してモデルを脆弱にし、さらに無害なユーザーにとって体験を劣化させる高い誤警報率を引き起こします。こうした脆弱性に対処するため、我々は新しい頑健なテキストから画像への拡散である Disciplined Diffusion（DDiffusion）を提案します。DDiffusion は、プロンプト埋め込みに潜む暗黙的な悪意の意味論を掘り起こすことで、Not Safe For Work（NSFW）生成に対抗します。DDiffusion は、脆い二項間の類似度に依存するのではなく、概念の分布に対してプロンプトを評価するための意味検索メカニズムを活用します。さらに、拡散プロセス中に局所化手法を用いて、生成画像の有害な領域のみを選択的に編集します。均一なブロックを適用するのではなく、局所的にサニタイズした画像を返すことで、DDiffusion は悪意のあるコンテンツを抑制しつつ、無害なプロンプトに対する生成の忠実性を維持し、既存の探索（プロービング）攻撃が依拠する二値の許可／拒否シグナルを回避します。