エージェント型強化学習のための、制御可能で検証可能なツール利用データ合成
arXiv cs.AI / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、強化学習と互換性のあるツール利用軌跡を生成し、報酬を検証可能なオンラインロールアウトを可能にすることを目的とした、2段階の合成データ・パイプライン「COVERT」を提案する。
- COVERTはまず、RL学習の前に信頼性を確保するため、マルチレベルのバリデーションを伴う自己進化型合成によって基礎軌跡を生成する。
- 次に、オラクル(正解)となるツール呼び出しと最終回答を厳密に真値(グラウンドトゥルース)として保持しつつ、タスクの難度を引き上げるオラクル保存型のデータ拡張を行う(例:注意をそらすツール、曖昧なクエリ、ノイズや誤ったツール出力)。
- このアプローチは、標準的なケースでは参照照合による自動報酬計算を可能にし、誤り検出のような特別な振る舞いでは軽量なジャッジ支援による検証を用いる。
- Qwen2.5-Instruct-14B による実験では、BFCL v3 のツール利用精度が 56.5→59.9、ACEBench が 53.0→59.3 と改善した。さらに、SFTの上に重ねると追加の向上が得られ、汎用性ベンチマークでは大きな後退は見られなかった。




