DualDiffusion:マスク拡散モデルのための推測(スペキュレイティブ)デコーディング戦略

arXiv cs.LG / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • マスク拡散モデルはトークンを並列に生成でき、双方向の文脈を利用できますが、推論は依然として遅いです。双方向アテンションにより有効なキー・バリュー(KV)キャッシュができないため、各ステップの計算量が O(N^2) になってしまいます。
  • FastDLLM や DkvCache のような先行する高速化手法は、アテンションを近似しキャッシュ戦略を用いることで生成ステップ数を削減しますが、多くの場合、生成品質とのトレードオフが発生します。
  • DualDiffusion は、軽量な高速デコーダ(効率的な近似を用いる)と、より遅い検証器(より高忠実度なモデリングを行う)を交互に用いる推測デコーディングの枠組みを導入します。
  • 軽量なデコーダステップを複数回実行した後に、1回の検証を行うことで、DualDiffusion は品質と効率のトレードオフを改善し、従来手法よりも良いパレートフロンティアを実現します。
  • MMLU と GSM8K に関する実験により、DualDiffusion は高い精度を維持しつつ必要な生成ステップ数を削減できることが示されました。これにより、マスク拡散言語モデルにおける性能/効率のカーブを効果的に押し広げます。

要旨: マスク付き拡散モデル(Masked Diffusion Models, MDMs)は、並列トークン生成と双方向の文脈モデリングを可能にすることで、自己回帰型言語モデルの有望な代替手段となります。しかし、双方向注意によってキー・バリュー(key-value)ペアをキャッシュできないため、推論速度が大きく制限されており、生成ステップごとに O(N^2) の計算が必要です。FastDLLM や DkvCache のような最近の手法は、注意の近似やキャッシュ戦略によって推論速度を改善しますが、生成品質を犠牲にして高速化を実現しています。そこで本研究では、MDM 向けのスペキュラティブ・デコーディング(speculative decoding)フレームワークである DualDiffusion を提案します。DualDiffusion は、高速な下書きモデル(効率的な近似を用いる)と、より遅いが正確な検証モデルを組み合わせます。軽量な下書き器による複数ステップの実行の後に、単一の検証ステップを行うことで、DualDiffusion は既存手法と比較して、生成ステップ数と精度の間のより優れたパレートフロンティアを達成します。私たちは、MMLU と GSM8K で本手法を評価し、DualDiffusion が高い精度を維持しつつ、必要な生成ステップ数を削減できることを示します。これにより、マスク付き拡散言語モデルにおける品質と効率のトレードオフ曲線を効果的に押し広げます。