トークンからステップへ:効率的なマルチステップ推論のための検証対応スペキュレイティブデコーディング

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、誤ったステップが連鎖して広がるのを防ぎつつマルチステップ推論を改善する検証対応のスペキュレイティブデコーディング手法としてSpecGuardを提案しています。
  • 外部のリワードモデルに頼らず、SpecGuardはモデル内部の信号だけでステップ単位の検証を行います。
  • 各ステップで複数のドラフト候補をサンプリングし、最も整合的なステップを選んだうえで、承認するかターゲットで再計算するかを(注意に基づくグラウンディングスコアと、トークンの対数確率に基づく信頼度の2つの)軽量な内部スコアで判断します。
  • 複数の推論ベンチマークで、精度が3.6%向上し、標準的なスペキュレイティブデコーディングおよびリワード誘導型を上回ってレイテンシが約11%低減したと報告されています。
  • 全体としてSpecGuardは、検証信号に基づいて計算を選択的に割り当てることで、より効率的かつ汎用性の高い推論を狙っています。

Abstract

推測デコーディング(SD)は、軽量なドラフトモデルが出力候補を提案し、より強力なターゲットモデルがそれを検証することを可能にすることで、大規模言語モデルの推論を高速化します。しかし、そのトークン中心の性質により、誤った手順が連鎖的に伝播し得ます。従来の手法は外部の報酬モデルを用いてこれを抑えることで対処してきましたが、その代償として追加のレイテンシ、計算オーバーヘッドが生じ、汎用性が制限されます。そこで本研究では、SpecGuard という検証を意識した推測デコーディングの枠組みを提案します。この枠組みは、モデル内部の信号のみを用いて、ステップ単位の検証を実行します。各ステップにおいて SpecGuard は複数のドラフト候補をサンプリングし、最も整合的なステップを選択します。選択されたステップは、その後、2つの軽量なモデル内部信号のアンサンブルを用いて検証されます。すなわち (i) 入力およびこれまでに受理されたステップへの帰属(attribution)を測定する注意(attention)ベースのグラウンディングスコア、(ii) トークン単位の信頼度を捉える対数確率(log-probability)ベースのスコアです。これらの信号は、ステップが受理されるか、ターゲットを用いて再計算されるかを共同で決定し、計算を選択的に割り当てます。さまざまな推論ベンチマークにわたる実験の結果、SpecGuard は SD と報酬に導かれた SD の両方を上回り、精度を 3.6% 向上させつつ、レイテンシを約 11% 削減します。