DIVERSED:動的アンサンブル検証によるリラックスした推測的デコーディング

arXiv cs.CL / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • DIVERSED(Dynamic Verification Relaxed Speculative Decoding)は、従来のspeculative decodingが持つ「厳密な検証(受理分布の厳格一致)」のボトルネックを緩和して推論速度を高める手法を提案しています。
  • ドラフト(draft)とターゲット(target)モデルの分布を、タスクや文脈に応じて重み付けする“アンサンブル検証器”で統合し、もっと多くの妥当なトークンを受理できるようにします。
  • 理論的な根拠を提示しつつ、実験により標準的なspeculative decodingよりも大幅に高い推論効率(time efficiency)と生成品質の維持を示したとされています。
  • コードはGitHub(comeusr/diversed)で公開されており、手法の再現・検証が可能です。

Abstract

推論時に大規模言語モデルを高速化するための効果的な手法として、推論(スペキュラティブ)デコーディングがある。実際には、その速度向上は多くの場合、受理されるトークン分布を厳密にターゲットモデルと一致させる、硬直的な検証ステップによってボトルネックとなる。この制約により、多くのもっともらしいトークンが拒否され、受理率が低下し、結果として全体の時間に対する速度向上が制限される。こうした限界を克服するため、生成品質を維持しつつ時間効率を改善する、Dynamic Verification Relaxed Speculative Decoding(DIVERSED)を提案する。DIVERSEDは、ドラフトモデルとターゲットモデルの分布を、タスク依存かつコンテキスト依存の重みでブレンドするアンサンブルベースの検証器を学習する。提案手法の理論的裏付けを示し、実験的にも、DIVERSEDが標準的な推論(スペキュラティブ)デコーディング手法と比べて推論効率を大幅に高めることを実証する。コードは以下で公開している: https://github.com/comeusr/diversed.