LogitSpec:次次トークン予測によるリトリーバル型推測デコーディングの高速化
arXiv cs.CL / 2026/4/30
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- LogitSpecは、学習不要でプラグ&プレイ可能な手法であり、大規模言語モデル(LLM)の推論を高速化するためのリトリーバル型推測デコーディング(SD)を改良する。
- それは、リトリーバル型SDが抱える重要な弱点――マッチングに基づく検索では正しいドラフト用参照トークンを見つけられないことが多い問題――に対処する。
- LogitSpecは直前トークンのロジットを用いて「次次(next next)」トークンを推測し、その後「次トークン」と「次次トークン」の両方に対して関連参照を取得する。
- 複数のテキスト生成ベンチマークでの実験により、最大2.61×の速度向上と、デコードステップあたり平均3.28件の受理トークンが示された。
- 著者は既存のLLM推論フレームワークへの統合を容易にするため、実装コードを https://github.com/smart-lty/LogitSpec で公開している。
