COSEARCH:強化学習による推論と文書ランキングの共同学習で実現するエージェント型検索

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • エージェント型検索は強化学習によって大きく進展している一方、先行研究では推論エージェントのみを最適化し、文書の検索/ランキング部分は固定のまま扱われがちだ。
  • 本論文では、固定の検索システムをオラクルに置き換えると7つのQAベンチマークで相対F1が最大+26.8%改善し得ることを示し、検索が性能拡張の主要ボトルネックであることを示唆している。
  • そこでCoSearchとして、Group Relative Policy Optimization(GRPO)を用いて多段推論エージェントと生成型文書ランカーを共同で学習する枠組みを提案する。
  • 推論トラジェクトリごとに入力が変わるランカーに対してGRPOを有効にするため、追加のロールアウトなしに、トークンレベルの類似度でサブクエリをクラスタリングするセマンティック・グルーピング戦略を導入する。
  • 7つのシングルホップ/マルチホップQAで強力なベースラインを一貫して上回り、アブレーションにより各設計の寄与が検証されることで、共同学習が今後の検索エージェントに不可欠な要素であることを示している。