検索もRLで鍛える:CoSearchがAgentic Searchの検索ボトルネックを解消

Zenn / 4/23/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • Agentic Searchにおける検索ボトルネックを、検索(ランカー)側もRLで最適化する考え方で解消するアプローチを紹介している。
  • CoSearchでは「Joint Rank Reason」といった枠組みで、検索結果の順位付けと推論を一体的に学習/改善することで精度と効率を狙っている。
  • 従来の“検索は固定モデル、推論だけが改善”になりがちな構図を見直し、検索品質そのものをエージェントの目標に合わせて鍛える点がポイントである。
  • Agentic Searchの実運用で効きやすいボトルネック(関連度・探索のムダ・次アクション選択の誤り)に直接手を入れる方向性として注目される。
はじめに LLMを活用したAgentic Search——つまりモデル自身が検索クエリを生成し、検索結果を踏まえて推論を繰り返し、最終的な回答を導き出す手法——は急速に発展している。Search-R1をはじめとする先行研究は、強化学習(RL)で推論エージェントを強化することで大きな成果を上げてきた。 しかし、ほとんどの手法は検索システムを「固定されたツール」として扱い、推論エージェントだけを最適化している。検索の質そのものはRL訓練中ずっと変わらない。 この設計は本当に最適なのか? UMass AmherstとSnap ResearchのチームがArXivに投稿したCoSearch(...

Continue reading this article on the original site.

Read original →