要旨: 現代のLLMエージェントはますます、実行時に自らのツールを作成するようになってきています――Python関数からAPIクライアントまで。しかし既存のベンチマークは、ほとんどの場合、下流タスクの完了によってそれらを評価しています。これは、ソフトウェアエンジニアのコードが動くかどうかだけで判断し、冗長性、退行(レグレッション)、安全性を無視することに相当します。私たちは、ソフトウェアエンジニアリングのワークフローにおけるLLM生成ツールライブラリのための診断ベンチマークであるEvolveTool-Benchを提案します。実際のツール実行を必要とする3つの領域(独自データ形式、APIオーケストレーション、数値計算)にまたがって、ライブラリ単位のソフトウェア品質指標――再利用性、冗長性、合成(コンポジション)成功、退行安定性、安全性――を定義するとともに、各ツールごとのTool Quality Score(正確性、堅牢性、汎用性、コード品質を測る)を導入します。コードレベルと戦略レベルのツール進化を直接比較した最初の試みとして(ARISE vs. EvoSkill vs. one-shotベースライン、99タスク、2つのモデル)、タスク完了が同程度(63-68%)でも、ライブラリ健全性に最大18%の差が生じ得ることを示し、タスクのみの評価では見えないソフトウェア品質リスクを明らかにします。これらの結果は、LLM生成ツールの評価とガバナンスには、進化するツールライブラリをブラックボックスではなく、第一級のソフトウェア成果物として扱う必要があることを示しています。
EvolveTool-Bench:ソフトウェア成果物としてのLLM生成ツールライブラリの品質を評価する
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のLLMエージェントに関するベンチマークが主として下流タスクの成否に焦点を当てており、実行時にエージェントが生成するツールライブラリに潜む品質上のリスクを見落としていると主張する。
- そこで、EvolveTool-Benchを提案する。本ベンチマークは、ライブラリ単位のメトリクス(例:再利用性、冗長性、合成の成功、回帰の安定性、安全性)およびツール単位のTool Quality Score(例:正確性、頑健性、汎用性、コード品質)を用いて、LLM生成ツールライブラリを評価する。
- 著者らは、3つの実行依存ドメイン—専有のデータ形式、APIのオーケストレーション、数値計算—にまたがって、タスク完了率が同程度であっても、ツールライブラリの「健康状態」は大きく異なり得ることを示す。
- 99タスク超にわたる対戦比較(ARISE vs. EvoSkill vs. ワンショットのベースライン)において、2つのモデルを用いると、タスク完了が同程度(63〜68%)であっても、ライブラリの健康状態では最大18%の差が生じうる。これは、タスクのみを評価することの限界を浮き彫りにする。
- 本研究は、進化し続けるLLM生成ツールを評価し統制する際には、ツールライブラリをブラックボックスとして扱うのではなく、第一級のソフトウェア成果物として扱うべきだと結論づける。




