SubSearch:複雑な検索における教師なしガイド付き推論のための中間報酬
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- SubSearchは、正しい推論経路が事前に決まっていない複雑な検索設定において、LLMを教師なしのガイド付き多段推論で訓練するための枠組みである。
- 結果に基づく強化学習シグナルのみに依存するのではなく、各ステップにおけるより高品質な計画と推論を促すための中間報酬シグナルを提供する。
- この手法は、注釈付きの軌跡を用いた外部の監督や、別途訓練した報酬モデルを必要とせずに、生成器を直接最適化するための内在的(intrinsic)で内部的に導出されたプロセス報酬を用いる。
- 7つのベンチマーク(QAおよびマルチホップQAを含む)での実験では、中間ステップの内在的報酬が、最終結果のみの報酬で訓練する場合よりも、より頑健な推論の痕跡を生み出すことが示されている。
- 著者らは、SubSearchが複雑なクエリ回答における検索エンジンのエージェント統合を改善し得ること、また教師ありのプロセス/報酬モデリングに比べてデータ効率の高い代替となり得ると提案している。



