IG-Search:検索拡張型推論におけるステップ単位の情報利得報酬

arXiv cs.AI / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文では、検索拡張型推論のために、軌跡(トラジェクトリー)単位の報酬ではなくステップ単位の報酬を用いる強化学習フレームワーク「IG-Search」を提案している。
  • 各検索ステップで、ランダム文書を用いたカウンターファクト基準と比較して、取得した文書が正解(gold answer)へのモデルの確信度をどれだけ高めるかを情報利得(Information Gain, IG)として計算する。
  • IGのステップ単位の信号は、GRPOにおけるトークンごとのアドバンテージ調整によって該当する検索クエリ・トークンへとフィードバックされ、ロールアウト内でより細かなクレジット割り当てを可能にする。
  • IG-Searchは、途中の中間監督や、軌跡間で共有される環境状態に依存せず、学習信号をモデル自身の生成確率から導出する。
  • 7つのQAベンチマーク(単一ホップ/マルチホップ)で実験した結果、平均EM 0.430(Qwen2.5-3B)を達成し、特にマルチホップ推論で効果が大きいことが示され、トレーニングの実時間は軌跡単位ベースラインに対して約6.4%増にとどまり、推論レイテンシは変わらない。