DiffuGuard：拡散型大規模言語モデルにおいて、固有の安全性が失われ、そして見出される方法

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、Diffusion Large Language Models（dLLM）におけるジャイルブレイク脆弱性が、自動回帰LLMと異なる生成メカニズム（反復・並列生成）に起因することを分析しています。
実験により、標準的なgreedy remasking戦略に潜む有害バイアスと、初期段階トークンの安全性が最終出力を左右する「Denoising-path Dependence」という現象を特定しています。
併せて、現行のデコーディング戦略が主要な脆弱性である一方で、dLLMには固有の安全性ポテンシャルがあることを示し、その活用のための学習不要の防御策DiffuGuardを提案しています。
DiffuGuardは、Stochastic Annealing Remaskingでgreedy由来の偏りを抑えるとともに、Block-level Audit and Repairで内部表現を用いたリスク検知と修正を行い、4つのdLLMで6種類のジャイルブレイクに対するAttack Success Rateを47.9%から14.7%へ大幅に低減しつつ有用性と効率を維持したと報告しています。

要旨: 拡散型大規模言語モデル（dLLM）の急速な進展は、反復的かつ並列的な生成メカニズムに起因しており、自己回帰型LLMとは根本的に異なる、前例のない脆弱性をもたらします。本論文では、dLLMの脆弱性について、2つの異なる次元――intra-step（ステップ内）とinter-step（ステップ間）のダイナミクス――にわたって、ジェイルブレイク攻撃を対象に詳細な分析を行います。実験結果は、標準的な貪欲（greedy）なリマスキング戦略に内在する有害なバイアスを明らかにするとともに、Denoising-path Dependence（デノイジング経路依存性）と我々が名付ける重要な現象を特定します。これは、初期段階のトークンの安全性が最終出力を決定的に左右することを意味します。これらの知見はまた、現在のデコーディング戦略が重大な脆弱性を構成する一方で、dLLMには実質的な内在的安全性ポテンシャルがあることも示しています。このポテンシャルを引き出すために、学習不要の防御フレームワークであるDiffuGuardを提案します。DiffuGuardは二段階のアプローチにより、脆弱性に対処します。具体的には、Stochastic Annealing Remasking（確率的アニーリング・リマスキング）により、貪欲な選択バイアスを緩和するための制御されたランダム性を動的に導入し、Block-level Audit and Repair（ブロック単位の監査と修復）では、内部モデル表現を活用して自律的なリスク検出と誘導された修正を行います。4つのdLLMに対する包括的な実験により、DiffuGuardの卓越した有効性が示されました。6種類の多様なジェイルブレイク手法に対する攻撃成功率を、47.9%から14.7%へと低減しつつ、モデルの有用性と効率を維持します。コードは以下で公開しています： https://github.com/niez233/DiffuGuard.