効率的なテスト時アライメントのためのガイド付きスペキュラティブ推論（GSI）

arXiv stat.ML / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、大規模言語モデルのテスト時における報酬ガイド付きデコーディングのための新しいアルゴリズム「Guided Speculative Inference（GSI）」を提案している。
GSIは、ソフトbest-of-n戦略に報酬モデル r(x,y) を組み合わせ、さらに小型の補助モデル π_S(y|x) からのスペキュラティブな候補サンプルを利用する。
著者らは、最適なタイルド・ポリシー（exp(β·r(x,y))に基づく）と、その最適ポリシー下での期待報酬について、確からしい（証明付きの）近似を示している。
MATH500、OlympiadBench、Minerva Math、MMLU-STEM、GSM8Kなどのベンチマークでの実験により、GSIは補助モデルを用いた標準的なソフトbest-of-nや、報酬ガイド付きスペキュラティブ推論よりも精度が向上し、条件によっては基盤モデル π_B のソフトbest-of-nを上回ることもある。
エンドツーエンドのレイテンシは最大28%削減できると報告されており、コードもGitHubで公開されている。

抽象: 大規模言語モデルにおける効率的な報酬ガイド付きデコーディングのための、新しいアルゴリズムである Guided Speculative Inference (GSI) を提案します。GSI は、ソフトな best-of- $n$ のテスト時スケーリング、報酬モデル $r(x,y)$ 、および小型の補助モデル $pi_S(y\mid x)$ からのスペキュラティブサンプルを組み合わせます。提案手法は、ベースモデル $pi_B$ のもとでのソフト best-of- $n$ を近似する最適な傾斜ポリシー $pi_{beta,B}(y\mid x) \propto \pi_B(y\mid x)\exp(\beta\,r(x,y))$ の両方、ならびに最適ポリシーにおける期待報酬の両方を、証明可能に近似します。推論ベンチマーク（MATH500、OlympiadBench、Minerva Math、MMLU-STEM、GSM8K）における実験および異なるモデルファミリにまたがる実験では、本手法は、標準的なソフト best-of- $n$ （ $pi_S$ と報酬ガイド付きスペキュラティブデコーディング（Liao et al., 2025））よりも高い精度を達成し、さらに特定の設定では、 $pi_B$ を用いたソフト best-of- $n$ にさえ上回ります。また、エンドツーエンドのレイテンシを最大 $28\%$ 削減します。コードは https://github.com/j-geuter/GSI で公開されています。

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Dev.to

Claude Codeのフックで開発ワークフローを自動化する方法

Dev.to

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

Dev.to

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

Dev.to

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

Dev.to

効率的なテスト時アライメントのためのガイド付きスペキュラティブ推論（GSI）

要点

関連記事

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Claude Codeのフックで開発ワークフローを自動化する方法

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer