$R^2$-dLLM:空間・時間の冗長性を削減して拡散型大規模言語モデルの推論を加速する

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散型LLM(dLLM)のデコーディング遅延が、空間的冗長性(信頼度クラスタや位置の曖昧さなど)と時間的冗長性(安定済み予測を再度マスキングすること)といった反復的な冗長性によって大きく引き起こされることを示しています。
  • $R^2$-dLLMとして、推論と学習の両面からデコーディング冗長性を削減する統合フレームワークを提案し、推論時には局所的な信頼度とトークン予測を集約する学習不要のデコーディング規則と、時間的に安定したトークンを確定して冗長な再デコーディングを避ける手法を導入しています。
  • さらに学習面では、冗長性を意識した教師ありファインチューニングにより、モデルを効率的なデコーディング経路へ整合させ、手動で調整する閾値への依存を減らすことを狙っています。
  • 複数のモデルとタスクでの実験では、既存のデコーディング手法に比べてデコーディング手順数を最大75%削減しつつ、生成品質も競争力を維持できることが示されています。
  • 要するに、デコーディング冗長性がdLLMの実用上の主要ボトルネックであり、それを明示的に削減することで大きな効率改善が得られると結論づけています。

要旨: 拡散型大規模言語モデル(dLLM)は、並列トークン予測を可能にすることで、自己回帰的生成の有望な代替として登場してきた。しかし、実運用におけるdLLMのデコードは依然として推論レイテンシが高いという課題があり、展開を制限している。本研究では、この非効率のかなりの部分が、デコード過程における反復的な冗長性に由来することを観察した。具体的には、信頼度クラスタが引き起こす空間的冗長性や位置の曖昧さによる冗長性、そして、すでに安定化した予測に対して繰り返しマスクし直すことによって生じる時間的冗長性である。これらのパターンに動機づけられ、推論と学習の両方の観点からデコード冗長性を削減するための統一フレームワークとして、R^2-dLLMを提案する。推論時には、局所的な信頼度とトークン予測を集約する学習不要のデコード規則を導入し、時間的に安定したトークンを確定させることで、冗長なデコード手順を回避する。さらに、冗長性に配慮した教師あり微調整のパイプラインを提案し、モデルを効率的なデコード軌道に整合させ、手動で調整した閾値への依存を低減する。実験の結果、R^2-dLLMは、既存のデコード戦略と比べて、デコードステップ数を最大75%一貫して削減しつつ、異なるモデルやタスクにわたって競争力のある生成品質を維持することが示された。これらの結果は、dLLMにおけるデコード冗長性が中核的なボトルネックであり、それを明示的に削減することで大きな実用上の効率向上が得られることを裏づける。