S^3-R1:合成データでステップごとに検索して回答する学習

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、検索して答えるエージェントの強化学習のポストトレーニングを、合成データとより密な学習シグナルの組み合わせで改善する枠組みとしてS^3-R1を提案しています。
  • 既存ドキュメントから多様なマルチホップ質問をプログラム的に生成・キュレーションするパイプラインを構築し、検索ベースの検証で中程度の難易度の問題に絞り込みます。
  • 学習では、途中の検索の質と最終回答の正しさの両方を評価する報酬設計を用い、疎な報酬によって生じるクレジット割当の問題を緩和します。
  • 評価では、S^3-R1が既存のベースラインより優れており、より良い検索・統合戦略を学習して、ドメイン外データセットで堅牢な汎化性能が最大10%向上することが示されています。

Abstract

強化学習(RL)の事後学習(post-training)は、検索におけるエージェント型のツール使用など、新しい能力をモデルにもたらしてきました。しかし、これらのモデルは主に、まばらな結果ベースの報酬に対する制約と、難易度の異なる質問を包含する学習データの欠如のために苦戦しています。その結果、モデルは、質問応答のための証拠を収集するためのツールを用いて、より深い探索を実行できません。これらの制約に対処するために、本研究では、データ中心のアプローチとより密な学習シグナルを結び付ける枠組みであるS^3-R1(Synthetic data and stabilized Search R1)を提案します。まず、既存の文書から多様なマルチホップ質問をプログラム的に導出する、合成生成およびキュレーション(選別)パイプラインを開発します。このパイプラインには、中程度の難易度の質問だけを特に分離するための、検索ベースの検証ステップを組み込みます。次に、この拡張された学習データセットを、中間的な探索の質と最終回答の正確性の両方を評価する報酬構造と組み合わせます。この設定により、まばらな報酬に固有のクレジット割当(credit assignment)問題が直接的に緩和されます。評価の結果、S^3-R1は、より効果的な探索および合成戦略を学習することで、既存のベースラインを上回り、ドメイン外データセットにおいて最大10%の頑健な汎化性能の改善が得られることが示されました。