IG-Search:検索拡張型推論におけるステップ単位の情報利得報酬
arXiv cs.AI / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文では、検索拡張型推論のために、軌跡(トラジェクトリー)単位の報酬ではなくステップ単位の報酬を用いる強化学習フレームワーク「IG-Search」を提案している。
- 各検索ステップで、ランダム文書を用いたカウンターファクト基準と比較して、取得した文書が正解(gold answer)へのモデルの確信度をどれだけ高めるかを情報利得(Information Gain, IG)として計算する。
- IGのステップ単位の信号は、GRPOにおけるトークンごとのアドバンテージ調整によって該当する検索クエリ・トークンへとフィードバックされ、ロールアウト内でより細かなクレジット割り当てを可能にする。
- IG-Searchは、途中の中間監督や、軌跡間で共有される環境状態に依存せず、学習信号をモデル自身の生成確率から導出する。
- 7つのQAベンチマーク(単一ホップ/マルチホップ)で実験した結果、平均EM 0.430(Qwen2.5-3B)を達成し、特にマルチホップ推論で効果が大きいことが示され、トレーニングの実時間は軌跡単位ベースラインに対して約6.4%増にとどまり、推論レイテンシは変わらない。




