検索もRLで鍛える:CoSearchがAgentic Searchの検索ボトルネックを解消
Zenn / 2026/4/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Agentic Searchにおける検索ボトルネックを、検索(ランカー)側もRLで最適化する考え方で解消するアプローチを紹介している。
- CoSearchでは「Joint Rank Reason」といった枠組みで、検索結果の順位付けと推論を一体的に学習/改善することで精度と効率を狙っている。
- 従来の“検索は固定モデル、推論だけが改善”になりがちな構図を見直し、検索品質そのものをエージェントの目標に合わせて鍛える点がポイントである。
- Agentic Searchの実運用で効きやすいボトルネック(関連度・探索のムダ・次アクション選択の誤り)に直接手を入れる方向性として注目される。
はじめに
LLMを活用したAgentic Search——つまりモデル自身が検索クエリを生成し、検索結果を踏まえて推論を繰り返し、最終的な回答を導き出す手法——は急速に発展している。Search-R1をはじめとする先行研究は、強化学習(RL)で推論エージェントを強化することで大きな成果を上げてきた。
しかし、ほとんどの手法は検索システムを「固定されたツール」として扱い、推論エージェントだけを最適化している。検索の質そのものはRL訓練中ずっと変わらない。
この設計は本当に最適なのか?
UMass AmherstとSnap ResearchのチームがArXivに投稿したCoSearch(...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →