寄与度で重み付けしたグループ相対ポリシー最適化によるLLMベース検索エージェントの強化

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMベースの検索エージェントに対する強化学習を改善するために、探索軌跡全体でのクレジット割当をより適切に扱うCW-GRPO(寄与度で重み付けしたグループ相対ポリシー最適化)を提案しています。
  • CW-GRPOは、報酬推定が不安定になりがちなプロセス報酬や、軌跡レベルの報酬が疎になりがちなアウトカム報酬に直接依存するのではなく、各検索ラウンドごとにLLMジャッジで「検索の有用性」と「推論の正しさ」をスコア付けします。
  • これらのラウンド別寄与度スコアを、アウトカムに基づくアドバンテージを再スケールするために用いることで、きめ細かなクレジット割当を実現しつつ学習の安定性を損なわないようにします。
  • 複数の知識集約ベンチマークで、CW-GRPOは標準のGRPOに対してQwen3-8Bで5.0%、Qwen3-1.7Bで6.3%上回り、より効果的な検索挙動につながることを示しています。
  • 分析では、成功した軌跡は特定のラウンドに寄与が集中する傾向があることが示され、検索エージェントの成功要因の理解に関する実証的示唆が得られています。