RACER:検索拡張コンテキスト型の高速・推測推論(Speculative Decoding)
arXiv cs.CL / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、推測して検証する(guess-and-verify)戦略によりLLMの推論レイテンシを下げることを目的とした、学習不要の推測推論手法RACERを提案する。
- RACERは、信頼できるアンカーとして正確なコンテキスト・パターンを検索で取り込みつつ、柔軟な外挿のためにログitベースの将来手がかりも組み合わせ、従来の検索のみ/ログitのみの学習不要手法の弱点を補うことを狙っている。
- Spec-Bench、HumanEval、MGSM-ZHでの実験により、RACERは標準のオートレグレッシブ復号に対して2倍超の速度向上を達成することが示される。
- RACERは既存の学習不要の推測推論手法よりも高性能であり、拡張可能でプラグアンドプレイな効率的LLM復号の手法として提示され、GitHubでコードも公開されている。




