ToolGrad:テキストの「グラデーション」による効率的なツール使用データセット生成

arXiv cs.CL / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文では、従来の「クエリ先行」パイプラインに見られる、注釈作業の失敗が起きやすく効率が低い問題を回避するためのツール使用データセット生成フレームワーク「ToolGrad」を提案しています。
  • ToolGradは、ユーザーの問い合わせを先に作ってから複雑なツール使用注釈を後付けするのではなく、テキストの「グラデーション」に導かれる反復プロセスでまず有効なツール使用チェーンを構築し、その後に対応するユーザー質問を合成します(「answer-first」)。
  • ToolGradは「ToolGrad-500」を生成し、より複雑なツール使用、生成コストの低さ、そして生成サンプルのほぼ100%のパス率を示しています。
  • 実験では、ToolGradのデータセットで学習したモデルが、高コストなベースラインデータセットや一部のプロプライエタリなLLM由来データセットで学習したモデルを上回ることが示されています。
  • 著者らは、再現やさらなる研究のために、ソースコード・データセット・モデルをGitHubで公開しています。

Abstract

従来の研究では、まずユーザークエリを生成し、その後に深さ優先探索(DFS)のような複雑なツール利用アノテーションを付与することで、ツール利用のLLMデータセットを合成してきました。これにより、アノテーションの失敗は避けられず、データ生成の効率も低くなります。私たちは、このパラダイムを反転させるエージェント型フレームワークであるToolGradを提案します。ToolGradは、まずテキスト上の「勾配(gradients)」に導かれた反復的プロセスによって、有効なツール利用チェーンを構築し、その後で対応するユーザークエリを合成します。この「答え先行(answer-first)」のアプローチにより、より複雑なツール利用で生成され、コストが低く、合格率がほぼ100%であるデータセットであるToolGrad-500が得られました。実験の結果、ToolGradモデルは、高価なベースラインデータセットや独自のLLMで訓練されたモデルを上回ることが示されました。ToolGradのソースコード、データセット、モデルは https://github.com/zhongyi-zhou/toolgrad で利用可能です。