エージェント軌跡からの検索の学習
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、クリック/滞在ログに基づいて訓練される従来の学習対順位(learning-to-rank)型の検索モデルは、LLM を用いた検索エージェントがマルチターンのループ内でどのようにクエリを発行し、結果を消費するかという実態と一致しないと主張する。
- 人間中心のシグナルではなく、マルチステップのエージェント同士の相互作用から監督(supervision)を抽出する「エージェント軌跡からの検索学習」という新しい訓練パラダイムを提案する。
- 検索エージェントの軌跡を分析することで、著者らは、閲覧行動、未閲覧の拒否、閲覧後の推論トレースといった、文書の有用性を示す行動的シグナルを特定する。
- 著者らは、エージェント軌跡から高品質な検索監督をマイニングし、重み付き最適化による関連性インテンシティ(relevance-intensity)を用いる枠組み LRAT を導入する。
- 深いリサーチ系ベンチマークにまたがる実験により、LRAT で学習したリトリーバは、証拠のリコール、エンドツーエンドのタスク成功、ならびに異なるエージェントのアーキテクチャやスケールにおける実行効率を改善することが示される。


