RACER：検索拡張コンテキスト型の高速・推測推論（Speculative Decoding）

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、推測して検証する（guess-and-verify）戦略によりLLMの推論レイテンシを下げることを目的とした、学習不要の推測推論手法RACERを提案する。
RACERは、信頼できるアンカーとして正確なコンテキスト・パターンを検索で取り込みつつ、柔軟な外挿のためにログitベースの将来手がかりも組み合わせ、従来の検索のみ／ログitのみの学習不要手法の弱点を補うことを狙っている。
Spec-Bench、HumanEval、MGSM-ZHでの実験により、RACERは標準のオートレグレッシブ復号に対して2倍超の速度向上を達成することが示される。
RACERは既存の学習不要の推測推論手法よりも高性能であり、拡張可能でプラグアンドプレイな効率的LLM復号の手法として提示され、GitHubでコードも公開されている。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

日経XTECH

Reddit r/LocalLLaMA

Dev.to

Dev.to

Dev.to