S2D2：ブロック拡散LLM向けの学習不要セルフスペキュレーションによる高速デコード

arXiv cs.CL / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

S2D2は、ブロック拡散LLM向けの学習不要のセルフスペキュラティブ（自己推論）デコード手法であり、信頼度しきい値による分岐が脆弱になりやすい少ステップ領域において、精度と速度のトレードオフを改善します。
ブロックサイズを1に縮小するとブロック拡散モデルが自己回帰的（autoregressive）になる、という洞察を活用し、同一の事前学習済みモデルを「推測者（drafter）」と「検証者（verifier）」の両方として用いることを可能にします。
デコード中、S2D2は軽量な推測検証ステップを挿入し、検証のコストが見合うかどうかを判断するルーティング方針を用います。
3つの主要なブロック拡散ファミリに対する実験では、信頼度しきい値ベースラインに比べて一貫した改善が見られます。たとえばSDARでは最大4.7×の高速化を達成し、精度は最大4.5ポイント向上しました。
LLaDA2.1-Miniでは、S2D2は内蔵の自己修正機構を補完し、静的ベースラインに対して最大4.4×の高速なデコードを提供できます（精度はわずかに高い）。

概要: ブロック拡散言語モデルは、ブロック単位の自己回帰デコーディングと、ブロック内並列のノイズ除去を組み合わせることで、自己回帰的生成よりも高速な生成への有望な道を切り開く。しかし、実用的な加速に必要な少数ステップ領域では、標準的な信頼度しきい値付きデコーディングはしばしば脆い。攻めたしきい値は品質を損ね、慎重なしきい値は不要なノイズ除去ステップを要求する。この問題に対処する既存の手法は、いずれも追加学習を必要とするか、あるいはテスト時の追加計算量を招く。本稿では、ブロック拡散言語モデル向けの、学習不要の自己推測デコーディング枠組みであるS2D2を提案する。我々の主要な観察は、ブロックサイズを1に縮小するとブロック拡散モデルが自己回帰になるため、同じ事前学習モデルを「ドラフター」と「検証者」の両方として機能させられる点である。S2D2は、標準的なブロック拡散デコーディングに推測検証ステップを挿入し、検証がそのコストに見合うかどうかを判断するための軽量なルーティング方策を用いる。これにより、拡散がトークンを並列に提案し、一方で自己回帰モードがローカルな系列（シーケンス）レベルの批評者として働く、ハイブリッドなデコーディング軌跡が得られる。3つの主要なブロック拡散ファミリーすべてにおいて、S2D2は強力なしきい値ベースライン（信頼度しきい値）に対して、精度と速度のトレードオフを一貫して改善する。SDARでは、自己回帰的デコーディングに対して最大 $4.7 imes$ の速度向上を観測し、調整済みの動的デコーディングのベースラインに対して最大 $1.57 imes$ の向上を観測しつつ、精度を最大4.5ポイント改善する。LLaDA2.1-Miniでは、S2D2は組み込みの自己修正に対して補完的であり、保守的な設定においても、静的ベースラインより $4.4 imes$ 高速でありながら、精度はわずかに高い。