COSEARCH:強化学習による推論と文書ランキングの共同学習で実現するエージェント型検索
arXiv cs.AI / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- エージェント型検索は強化学習によって大きく進展している一方、先行研究では推論エージェントのみを最適化し、文書の検索/ランキング部分は固定のまま扱われがちだ。
- 本論文では、固定の検索システムをオラクルに置き換えると7つのQAベンチマークで相対F1が最大+26.8%改善し得ることを示し、検索が性能拡張の主要ボトルネックであることを示唆している。
- そこでCoSearchとして、Group Relative Policy Optimization(GRPO)を用いて多段推論エージェントと生成型文書ランカーを共同で学習する枠組みを提案する。
- 推論トラジェクトリごとに入力が変わるランカーに対してGRPOを有効にするため、追加のロールアウトなしに、トークンレベルの類似度でサブクエリをクラスタリングするセマンティック・グルーピング戦略を導入する。
- 7つのシングルホップ/マルチホップQAで強力なベースラインを一貫して上回り、アブレーションにより各設計の寄与が検証されることで、共同学習が今後の検索エージェントに不可欠な要素であることを示している。
関連記事
効果検証入門③ T-Learnerで介入効果の分布を見てみる
Qiita
「DeepSeek-V4」登場 オープンながら“世界トップのクローズドモデルに匹敵”うたう
ITmedia AI+

ChatGPTが『依存』だとユーザーを疑う件について
note

【AI×マインドフルネス】SUNO AIで挑む「朝の活力」4分間瞑想ガイド制作記
note

【note更新、嫌になってませんか】告知ゼロで19,860円の記事が累計3本売れた夜に、私が見ている世界規模の油田の話。あなたは今、石油を掘っている自覚はありますか? #生成AI #AI活用 #noteで読めるマンガ #ChatGPTImages2.0 #ChatGPT #Claude #Gemini #Kindle出版 #nanobanana #note #情報発信 #ビジネス #noteの書き方 #副業 #マーケティング
note