サボテン(Cactus):制約付き受理による推論サンプリングで自己回帰的デコーディングを高速化する―Constrained Acceptance Speculative Sampling

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、より小型のドラフトモデルを用いながら、結果が検証モデルの分布に一致することを保証しつつ、自己回帰型LLMデコーディングを高速化するための推論サンプリング(speculative sampling)を議論する

概要: 投機的サンプリング(SpS)は、小型のドラフトモデルを活用することで、自己回帰型の大規模言語モデルのデコーディングスループットを加速するのに成功している。SpSは、生成された分布を検証器LLM(verifier LLM)の分布と厳密に一致させることを強制する。これは不必要に過度に制限的であり、top-kでのサンプリングや温度の適用といった、検証器の分布に対するわずかな変動は許容可能でもある。典型的な受理サンプリング(TAS)は、エントロピーに基づくヒューリスティックにより、より多くのトークンを受理することでこの問題を緩和する。しかしこの方法は検証器の分布を歪めてしまい、検証器が重要な情報を符号化している場合には、出力品質が低下する可能性がある。本研究では、制約付き最適化の観点から投機的サンプリングアルゴリズムを形式化する。これに基づき、Cactus(制約付き受理による投機的サンプリング)という手法を提案し、検証器分布からの制御された乖離を保証しつつ、受理率を向上させる。幅広いベンチマークにおける実験結果は、我々のアプローチの有効性を確認している。