IG-Search：検索拡張型推論におけるステップ単位の情報利得報酬

arXiv cs.AI / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文では、検索拡張型推論のために、軌跡（トラジェクトリー）単位の報酬ではなくステップ単位の報酬を用いる強化学習フレームワーク「IG-Search」を提案している。
各検索ステップで、ランダム文書を用いたカウンターファクト基準と比較して、取得した文書が正解（gold answer）へのモデルの確信度をどれだけ高めるかを情報利得（Information Gain, IG）として計算する。
IGのステップ単位の信号は、GRPOにおけるトークンごとのアドバンテージ調整によって該当する検索クエリ・トークンへとフィードバックされ、ロールアウト内でより細かなクレジット割り当てを可能にする。
IG-Searchは、途中の中間監督や、軌跡間で共有される環境状態に依存せず、学習信号をモデル自身の生成確率から導出する。
7つのQAベンチマーク（単一ホップ／マルチホップ）で実験した結果、平均EM 0.430（Qwen2.5-3B）を達成し、特にマルチホップ推論で効果が大きいことが示され、トレーニングの実時間は軌跡単位ベースラインに対して約6.4%増にとどまり、推論レイテンシは変わらない。

AI-SCHOLAR

Dev.to

Dev.to

Dev.to

Dev.to