較正された推論的デコーディング:頻度に導かれた候補選択による効率的な推論

arXiv cs.CL / 2026/4/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、語彙的に乖離しているが意味的には正しい下書きトークンによって引き起こされる、推論的デコーディングにおける誤ったリジェクトを減らすための手法として、Calibrated Speculative Decoding(CSD)を提案する。
  • CSDは、学習不要のアプローチであり、Frequency-Guided Candidate Selection(頻度に導かれた候補選択)とProbability-Guarded Acceptance(確率によりガードされた受理)を用いる。加えて、2つの軽量モジュールを備える:反復的な乖離を救出する候補のためのOnline Correction Memory(オンライン補正メモリ)と、確率比に基づくSemantic Consistency Gating(意味整合性ゲーティング)である。
  • 複数の大規模言語モデルに対する実験の結果、CSDは推論スループットを改善し、報告された最大のスピードアップは2.33倍である。
  • 本手法はタスクを通じて精度を維持しつつ、複雑な推論データセットで追加の性能向上も提供する。LLM導入に対する、実用的で軽量なアップグレードとして位置付けられている。