制約付きデータ合成と段階的報酬によるマルチステップ・ツールオーケストレーションのためのLLMの学習

arXiv cs.LG / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、1回目のAPI呼び出しの出力が後続の依存する呼び出しへ正しく受け渡される必要がある、マルチステップ・ツールオーケストレーションをLLMに学習させる難しさに取り組む。
大量の実API応答のキャッシュを用いて、制御可能で複雑性の段階を持つマルチステップのトレースを生成するための、制約付きデータ合成により、無制約の合成よりも大幅に高い効率で動作する強化学習（RL）学習フレームワークを提案する。
原子的な妥当性（増加する粒度における個々の関数呼び出しの正しさ）と、オーケストレーションの正しさ（依存関係を尊重した適切なツールの順序付け）の両方に対して学習信号を与える、段階的報酬（graduated reward）方式を提案する。
ComplexFuncBenchでの実験によりターン精度で大きな改善が示され、アブレーション研究では、最良の性能を得るには報酬の両コンポーネントが必要であることが示される。