SubSearch:複雑な検索における教師なしガイド付き推論のための中間報酬

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • SubSearchは、正しい推論経路が事前に決まっていない複雑な検索設定において、LLMを教師なしのガイド付き多段推論で訓練するための枠組みである。
  • 結果に基づく強化学習シグナルのみに依存するのではなく、各ステップにおけるより高品質な計画と推論を促すための中間報酬シグナルを提供する。
  • この手法は、注釈付きの軌跡を用いた外部の監督や、別途訓練した報酬モデルを必要とせずに、生成器を直接最適化するための内在的(intrinsic)で内部的に導出されたプロセス報酬を用いる。
  • 7つのベンチマーク(QAおよびマルチホップQAを含む)での実験では、中間ステップの内在的報酬が、最終結果のみの報酬で訓練する場合よりも、より頑健な推論の痕跡を生み出すことが示されている。
  • 著者らは、SubSearchが複雑なクエリ回答における検索エンジンのエージェント統合を改善し得ること、また教師ありのプロセス/報酬モデリングに比べてデータ効率の高い代替となり得ると提案している。

Abstract

大規模言語モデル(LLM)は確率的な性質を持ち、外部情報で補強するとより信頼性高く動作します。複雑なクエリは、取得した情報に対して多段階の推論を必要とすることが多く、明確な、あるいはあらかじめ定められた推論経路がないため、依然として困難です。近年の手法では、モデルの出力結果に対する強化学習でモデルを訓練し、複雑な情報の扱いを改善する可能性が示されています。私たちは、出力結果のみに基づく監督から、中間の報酬信号へと切り替える専門フレームワークであるSubSearchを提案します。これにより、高品質な推論の計画を促す中間報酬によってモデルを動機づけます。プロセス報酬モデリングに関する従来研究では、いずれも人間のアノテータまたは大規模LLMの判定者によるアノテーション付き軌跡を用いて、別個の報酬モデルを訓練することに焦点が当てられていました。一方でSubSearchは、固有のプロセス報酬により生成器を直接最適化します。この固有のプロセス報酬は、内部から導出される報酬として定義され、外部の監督を必要とせず、情報集約型推論の自律化へと近づきます。7つのベンチマークにおける実験では、中間の推論ステップに固有報酬を与えることで、アウトカム報酬のみの場合よりも、QAおよびマルチホップQAデータセットの両方で、より頑健な推論トレースが得られることが示されました。SubSearchは、複雑なクエリに対する応答でエンジンをより適切に統合できる推論トレースの構築に役立つとともに、教師ありのプロセス・モデリングに代わるデータ効率の高い手法を提供します。