効率的なテスト時アライメントのためのガイド付きスペキュラティブ推論(GSI)

arXiv stat.ML / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文では、大規模言語モデルのテスト時における報酬ガイド付きデコーディングのための新しいアルゴリズム「Guided Speculative Inference(GSI)」を提案している。
  • GSIは、ソフトbest-of-n戦略に報酬モデル r(x,y) を組み合わせ、さらに小型の補助モデル π_S(y|x) からのスペキュラティブな候補サンプルを利用する。
  • 著者らは、最適なタイルド・ポリシー(exp(β·r(x,y))に基づく)と、その最適ポリシー下での期待報酬について、確からしい(証明付きの)近似を示している。
  • MATH500、OlympiadBench、Minerva Math、MMLU-STEM、GSM8Kなどのベンチマークでの実験により、GSIは補助モデルを用いた標準的なソフトbest-of-nや、報酬ガイド付きスペキュラティブ推論よりも精度が向上し、条件によっては基盤モデル π_B のソフトbest-of-nを上回ることもある。
  • エンドツーエンドのレイテンシは最大28%削減できると報告されており、コードもGitHubで公開されている。

抽象: 大規模言語モデルにおける効率的な報酬ガイド付きデコーディングのための、新しいアルゴリズムである Guided Speculative Inference (GSI) を提案します。GSI は、ソフトな best-of-n のテスト時スケーリング、報酬モデル r(x,y)、および小型の補助モデル pi_S(y\mid x) からのスペキュラティブサンプルを組み合わせます。提案手法は、ベースモデル pi_B のもとでのソフト best-of-n を近似する最適な傾斜ポリシー pi_{beta,B}(y\mid x) \propto \pi_B(y\mid x)\exp(\beta\,r(x,y)) の両方、ならびに最適ポリシーにおける期待報酬の両方を、証明可能に近似します。推論ベンチマーク(MATH500、OlympiadBench、Minerva Math、MMLU-STEM、GSM8K)における実験および異なるモデルファミリにまたがる実験では、本手法は、標準的なソフト best-of-npi_S と報酬ガイド付きスペキュラティブデコーディング(Liao et al., 2025))よりも高い精度を達成し、さらに特定の設定では、pi_B を用いたソフト best-of-n にさえ上回ります。また、エンドツーエンドのレイテンシを最大 28\% 削減します。コードは https://github.com/j-geuter/GSI で公開されています。