S^3-R1:合成データでステップごとに検索して回答する学習
arXiv cs.LG / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、検索して答えるエージェントの強化学習のポストトレーニングを、合成データとより密な学習シグナルの組み合わせで改善する枠組みとしてS^3-R1を提案しています。
- 既存ドキュメントから多様なマルチホップ質問をプログラム的に生成・キュレーションするパイプラインを構築し、検索ベースの検証で中程度の難易度の問題に絞り込みます。
- 学習では、途中の検索の質と最終回答の正しさの両方を評価する報酬設計を用い、疎な報酬によって生じるクレジット割当の問題を緩和します。
- 評価では、S^3-R1が既存のベースラインより優れており、より良い検索・統合戦略を学習して、ドメイン外データセットで堅牢な汎化性能が最大10%向上することが示されています。




