ブロック拡散ドラフトツリーによる推測(スペキュレイティブ)デコーディングの高速化

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 推測(スペキュレイティブ)デコーディングは、軽量なドラフタが複数の将来トークンを提案し、ターゲットモデルがそれらを並列に検証することで、自回帰型言語モデルを高速化する。
  • DFlashは、ブロック拡散ドラフタを導入し、1回のフォワードパスでドラフトブロック全体を生成することで、最先端の推測デコーディング結果を達成する。
  • 本論文では、従来のDFlashは各ラウンドで検証できるのが1つのドラフト軌跡に限られるため、到達可能な受理(アクセプト)長さが制限され得ることを指摘している。
  • そこで、DDTree(Diffusion Draft Tree)を提案する。これは、ブロック拡散ドラフタの各位置ごとの分布からドラフトツリーを構築し、固定のノード予算のもとで最もあり得る継続を選択するために、ベストファーストヒープ戦略を用いる。
  • DDTreeは、祖先のみを許可する注意マスク(ancestor-only attention mask)により、ターゲットモデルの1回のフォワードパスで生成されたツリーを効率的に検証し、DFlashを基盤とした主要な推測デコーディング手法として位置付けられている。