再マスクとリダイレクト：拡散言語モデルにおけるノイズ除去の不可逆性を悪用する

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、拡散ベースの言語モデルが脆弱な安全性の前提に依存していることを示す。すなわち、単調なノイズ除去スケジュールの早い段階でトークンが確定されると、その後再評価されることはない。
これらの初期の拒否トークンに再マスクを施し、短い肯定的な接頭辞を追加することで、著者らは、勾配や複雑な探索を用いずに、指示チューニング済みモデルに対する高い攻撃成功率（HarmBenchで76.1%、別の評価で81.8%）を達成している。
実験結果から、この脆弱性はモデルのアーキテクチャ／スケジュールに構造的に内在することが示される。より高度な勾配最適化による摂動（たとえば微分可能なGumbel-softmaxを介した手法）では、むしろ攻撃成功率が低下する。
著者らは、dLLMの安全整合（alignment）は、頑健な安全メカニズムというよりも、スケジュール遵守に依存しており、対抗（アドバーサリアル）に対して表面的（浅い）可能性があると結論づけている。
提案される緩和策には、安全性を考慮したアンマスク（unmasking）スケジュール、ステップ条件付きの接頭辞操作の検出、確定が行われた後の再検証（re-verifying）が含まれる。

要旨: 拡散ベースの言語モデル（dLLM）は、マスクされたトークン列を反復的にノイズ除去することでテキストを生成します。本研究では、それらの安全性アラインメントが、単一の脆い仮定に依存していることを示します。その仮定とは、「ノイズ除去スケジュールが単調であり、コミットされたトークンが再評価されない」ことです。安全性にアラインメントされたdLLMは、64ステップのノイズ除去のうち最初の8〜16の時点で拒否（refusal）トークンをコミットし、スケジュールはこれらのコミットを恒久的なものとして扱います。些細な2ステップの介入――これらのトークンを再マスクし、12トークンの肯定的プレフィックスを注入する――によって、LLaDA-8B-Instructに対してHarmBench（n=159, Lg=128）で76.1%のASRが達成され、さらにDream-7B-Instructに対しては81.8%のASR（n=159）が達成されます。ここでは、勾配計算や敵対的探索は一切行いません。この脆弱性の悪用が単純であること自体が中心的発見です。微分可能なGumbel-softmax連鎖による勾配最適化された摂動で拡張するとASRは一貫して低下します（例：Lg=128で41.5% vs. 76.1%）。これは、この脆弱性が、高度な悪用を必要とするものではなく構造的なものであることを確認します。これらの結果は、dLLMの安全性が敵対的に頑健ではなく、むしろアーキテクチャ的に浅いことを明らかにします――それは、ノイズ除去スケジュールが一度も破られない場合に限って成り立っています。安全対策として、安全性を考慮したアンマスク（unmasking）スケジュール、ステップ条件付きプレフィックス検出、コミット後の再検証などについて議論します。

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

注目集める「AIエージェント」、一問一答型から自律的なシステムに

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

再マスクとリダイレクト：拡散言語モデルにおけるノイズ除去の不可逆性を悪用する

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず