エージェント型強化学習のための、制御可能で検証可能なツール利用データ合成

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強化学習と互換性のあるツール利用軌跡を生成し、報酬を検証可能なオンラインロールアウトを可能にすることを目的とした、2段階の合成データ・パイプライン「COVERT」を提案する。
  • COVERTはまず、RL学習の前に信頼性を確保するため、マルチレベルのバリデーションを伴う自己進化型合成によって基礎軌跡を生成する。
  • 次に、オラクル(正解)となるツール呼び出しと最終回答を厳密に真値(グラウンドトゥルース)として保持しつつ、タスクの難度を引き上げるオラクル保存型のデータ拡張を行う(例:注意をそらすツール、曖昧なクエリ、ノイズや誤ったツール出力)。
  • このアプローチは、標準的なケースでは参照照合による自動報酬計算を可能にし、誤り検出のような特別な振る舞いでは軽量なジャッジ支援による検証を用いる。
  • Qwen2.5-Instruct-14B による実験では、BFCL v3 のツール利用精度が 56.5→59.9、ACEBench が 53.0→59.3 と改善した。さらに、SFTの上に重ねると追加の向上が得られ、汎用性ベンチマークでは大きな後退は見られなかった。

Abstract

既存の合成ツール使用コーパスは主に、オフラインの教師あり微調整(supervised fine-tuning)を目的に設計されています。しかし強化学習(RL)には、報酬を検証可能なオンラインのロールアウトを支える実行可能な環境が必要です。そこで本研究では、COVERTという二段階のパイプラインを提案します。まず多層のバリデーションを伴う自己進化型の合成により、信頼できるベースのツール使用軌跡を生成し、次に、オラクル(正解)を保持する拡張を適用して、環境の複雑さを体系的に増大させます。これらの拡張では、ディストラクタとなるツール、間接的または曖昧なユーザ質問、ノイズのある多形式、あるいは誤ったツール出力を導入します。一方で、オラクルとなるツール呼び出しと最終的な答えを真値として厳密に保持します。この設計により、標準的なケースでは参照一致(reference matching)による自動報酬計算が可能となり、エラー検出のような特殊なふるまいでは、軽量なジャッジ補助による検証を行えます。これによりツール呼び出し方策のRL最適化を支援します。Qwen2.5-Instruct-14Bにおいて、COVERT-RLはBFCL v3で全体の精度を56.5から59.9へ、ACEBenchで53.0から59.3へ改善し、汎用性ベンチマークでは最小限の後退にとどめます。さらにSFTの上に重ねると、62.1と61.8に到達し、追加的な改善(加法的な利得)が確認されます。これらの結果は、オラクルを保持する合成環境が、曖昧さや信頼できないツールのフィードバック下でのツール使用頑健性を高めるための、SFTに補完的な実用的なRL微修正段階を提供し得ることを示唆しています。