再マスクとリダイレクト:拡散言語モデルにおけるノイズ除去の不可逆性を悪用する

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散ベースの言語モデルが脆弱な安全性の前提に依存していることを示す。すなわち、単調なノイズ除去スケジュールの早い段階でトークンが確定されると、その後再評価されることはない。
  • これらの初期の拒否トークンに再マスクを施し、短い肯定的な接頭辞を追加することで、著者らは、勾配や複雑な探索を用いずに、指示チューニング済みモデルに対する高い攻撃成功率(HarmBenchで76.1%、別の評価で81.8%)を達成している。
  • 実験結果から、この脆弱性はモデルのアーキテクチャ/スケジュールに構造的に内在することが示される。より高度な勾配最適化による摂動(たとえば微分可能なGumbel-softmaxを介した手法)では、むしろ攻撃成功率が低下する。
  • 著者らは、dLLMの安全整合(alignment)は、頑健な安全メカニズムというよりも、スケジュール遵守に依存しており、対抗(アドバーサリアル)に対して表面的(浅い)可能性があると結論づけている。
  • 提案される緩和策には、安全性を考慮したアンマスク(unmasking)スケジュール、ステップ条件付きの接頭辞操作の検出、確定が行われた後の再検証(re-verifying)が含まれる。

要旨: 拡散ベースの言語モデル(dLLM)は、マスクされたトークン列を反復的にノイズ除去することでテキストを生成します。本研究では、それらの安全性アラインメントが、単一の脆い仮定に依存していることを示します。その仮定とは、「ノイズ除去スケジュールが単調であり、コミットされたトークンが再評価されない」ことです。安全性にアラインメントされたdLLMは、64ステップのノイズ除去のうち最初の8〜16の時点で拒否(refusal)トークンをコミットし、スケジュールはこれらのコミットを恒久的なものとして扱います。些細な2ステップの介入――これらのトークンを再マスクし、12トークンの肯定的プレフィックスを注入する――によって、LLaDA-8B-Instructに対してHarmBench(n=159, Lg=128)で76.1%のASRが達成され、さらにDream-7B-Instructに対しては81.8%のASR(n=159)が達成されます。ここでは、勾配計算や敵対的探索は一切行いません。この脆弱性の悪用が単純であること自体が中心的発見です。微分可能なGumbel-softmax連鎖による勾配最適化された摂動で拡張するとASRは一貫して低下します(例:Lg=128で41.5% vs. 76.1%)。これは、この脆弱性が、高度な悪用を必要とするものではなく構造的なものであることを確認します。これらの結果は、dLLMの安全性が敵対的に頑健ではなく、むしろアーキテクチャ的に浅いことを明らかにします――それは、ノイズ除去スケジュールが一度も破られない場合に限って成り立っています。安全対策として、安全性を考慮したアンマスク(unmasking)スケジュール、ステップ条件付きプレフィックス検出、コミット後の再検証などについて議論します。