エージェント軌跡からの検索の学習

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クリック/滞在ログに基づいて訓練される従来の学習対順位(learning-to-rank)型の検索モデルは、LLM を用いた検索エージェントがマルチターンのループ内でどのようにクエリを発行し、結果を消費するかという実態と一致しないと主張する。
  • 人間中心のシグナルではなく、マルチステップのエージェント同士の相互作用から監督(supervision)を抽出する「エージェント軌跡からの検索学習」という新しい訓練パラダイムを提案する。
  • 検索エージェントの軌跡を分析することで、著者らは、閲覧行動、未閲覧の拒否、閲覧後の推論トレースといった、文書の有用性を示す行動的シグナルを特定する。
  • 著者らは、エージェント軌跡から高品質な検索監督をマイニングし、重み付き最適化による関連性インテンシティ(relevance-intensity)を用いる枠組み LRAT を導入する。
  • 深いリサーチ系ベンチマークにまたがる実験により、LRAT で学習したリトリーバは、証拠のリコール、エンドツーエンドのタスク成功、ならびに異なるエージェントのアーキテクチャやスケールにおける実行効率を改善することが示される。

Abstract

情報検索(IR)システムは伝統的に、人間のユーザー向けに設計・学習されてきました。学習順位付け(learning-to-rank)手法は、クリックや滞在時間(dwell time)といった大規模な人手による相互作用ログに大きく依存しています。しかし、大規模言語モデル(LLM)を活用した検索エージェントの急速な登場により、検索の利用は人間ではなくエージェントによって行われることが増え、検索はマルチターンの推論と行動のループの中核コンポーネントとして組み込まれています。このような状況では、人間中心の前提のもとで学習された検索モデルは、エージェントがクエリを発行し、結果を消費する方法との間に根本的な不一致が生じます。本研究では、エージェント型検索のための検索モデルは、エージェントの相互作用データから直接学習されるべきだと主張します。そこで、エージェントの軌跡(trajectory)から検索を学習する新しい学習パラダイムを提案し、多段階のエージェント相互作用から教師信号(supervision)を導出します。検索エージェントの軌跡を体系的に分析することで、閲覧行動、閲覧されなかった却下(unbrowsed rejections)、閲覧後の推論トレースなど、文書の有用性を示す重要な行動シグナルを特定します。これらの洞察に導かれ、エージェントの軌跡から高品質な検索の教師信号をマイニングし、重み付き最適化によって関連度の強度(relevance intensity)を組み込む、シンプルでありながら効果的な枠組みLRATを提案します。ドメイン内およびドメイン外の両方のディープリサーチ・ベンチマークに対する大規模な実験により、LRATで学習されたリトリーバ(retriever)が、多様なエージェントのアーキテクチャと規模にわたって、証拠想起(evidence recall)、エンドツーエンドのタスク成功、実行効率を一貫して改善することを示します。これらの結果は、エージェントの軌跡が、実用的かつスケーラブルな教師信号源になり得ることを明らかにし、エージェント型検索の時代における検索の有望な方向性を示しています。