DIVE: 一般化可能なツール使用のためのエージェント性タスク合成における多様性のスケーリング

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、合成されたエージェント性タスクの多様性が不十分であることが、訓練後のツール使用LLMの一般化を脆弱にする、と主張している。
DIVEは合成プロセスを反転させ、まず多様な実世界ツールを実行し、得られた痕跡からのみタスクを逆算的に導出することで、構築によるグラウンディングを提供する。
ツールプールのカバレッジとタスクごとのツールセットの多様性という2軸に沿って多様性を拡張し、エビデンス収集ループによって5つのドメインにわたる373ツールを横断した、より豊かな多段階のツール使用パターンを導出する。
実証的には、DIVEデータ（SFT 48k + 3.2k RL）でQwen3-8Bを訓練すると、9つのOODベンチマークで平均+22ポイント、最強の8Bベースラインを+68ポイント上回る。驚くべきことに、制御されたスケーリング分析は、OOD一般化において多様性スケーリングが量的スケーリングを一貫して上回ることを示しており、データ量を4分の1しか使わなくてもその効果を発揮します。

要旨: 最近の研究は、訓練後のツール使用LLMのためのエージェント性タスクを合成していますが、タスクやツールセットの変化に対する頑健な一般化は依然として未解決の課題です。私たちはこの脆さを、合成されたタスクの多様性不足に起因すると指摘します。多様性をスケールさせることは難しい。訓練ではタスクが実行可能かつ検証可能であることを要求しますが、一般化は多様なツールタイプ、ツールセットの組み合わせ、および異種のツール使用パターンを網羅することを要求します。我々はDIVEを提案します。エビデンス駆動のレシピで、合成順序を反転させ、まず多様な実世界ツールを実行し、得られた痕跡に厳密に含まれるタスクのみを逆推定することで、構築によるグラウンディングを提供します。DIVEは、ツールプールのカバレッジとタスクごとのツールセットの多様性という2つの制御可能な軸に沿って構造的多様性をスケールし、エビデンス収集-タスク導出ループは、5つのドメインにまたがる373のツールにわたる豊かな多段階のツール使用パターンをさらに誘発します。DIVEデータ（SFT 48k + RL 3.2k）でQwen3-8Bを訓練すると、9つのOODベンチマークで平均+22ポイント、最強の8Bベースラインを+68ポイント上回ります。驚くべきことに、制御されたスケーリング分析は、OOD一般化において多様性スケーリングが量的スケーリングを一貫して上回ることを示しており、データ量を4分の1しか使わなくてもその効果を発揮します。