概要: 汎用エージェントの開発には、単純な指示を実行することから、複雑で現実世界に即した生産性ワークフローを完了させることへの転換が必要です。しかし、現在のツール利用ベンチマークは実世界の要件と不整合なままであり、AIが生成したクエリ、ダミーのツール、そして限定的なシステムレベルの連携に依存しています。これに対処するために、私たちはGTA-2を提案します。これは、原子(atomic)レベルのツール利用から、開放的な(open-ended)ワークフローまでをカバーする、汎用ツールエージェント(GTA)の階層型ベンチマークです。実世界の真正性に基づいており、実ユーザのクエリ、実際に導入されたツール、多モーダルな文脈を活用します。 (i)GTA-Atomicは、先行研究のGTAベンチマークを継承しており、短い時間範囲でのクローズドエンドなツール利用の精度を評価します。 (ii)GTA-Workflowは、長い時間範囲のオープンエンドなタスクを導入し、現実的なエンドツーエンドの完了を評価します。オープンエンドな成果物を評価するために、目的を検証可能なサブ目標へ分解する、再帰的なチェックポイント方式の評価メカニズムを提案します。これにより、モデルの能力とエージェントの実行フレームワーク(すなわち、実行ハーネス)の両方を統一的に評価できます。実験の結果、顕著な能力の崖(capability cliff)が明らかになりました。最先端モデルは、原子タスク(50%未満)ですでに苦戦している一方で、ワークフローではほとんど失敗し、上位モデルでも成功率は14.39%にとどまります。さらなる分析では、チェックポイントに導かれたフィードバックが性能を向上させることが分かっています。また、ManusやOpenClawのような高度なフレームワークは、ワークフロー完了を大幅に改善し、基盤となるモデル能力に加えて、実行ハーネス設計の重要性を強調しています。これらの知見は、信頼性の高い個人向けおよび業務向けアシスタントを開発するための指針を提供します。データセットおよびコードは https://github.com/open-compass/GTA で公開されます。
GTA-2:原子的なツール利用からオープンエンドのワークフローまで――汎用ツールエージェントのベンチマーク
arXiv cs.AI / 2026/4/20
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 本論文は、既存のツール利用ベンチマークが実際の生産性ワークフローとずれており、AIが生成したクエリ、ダミーのツール、限定的なシステム協調に依存していると指摘している。
- GTA-2として、汎用ツールエージェント向けの階層型ベンチマークを提案し、短い手順の正確性を測るGTA-Atomicと、長いホライズンのオープンエンド課題を扱うGTA-Workflowを、実ユーザークエリ・実デプロイ済みツール・マルチモーダル文脈で評価する。
- オープンエンドの成果物を評価するために、目的を検証可能なサブゴールへ分解する再帰的なチェックポイント方式を提案し、モデル能力と実行ハーネス(実行フレームワーク)双方を統一的に評価できるようにしている。
- 実験では明確な「能力の崖」が示され、最先端モデルでも原子的タスクは50%未満であり、ワークフローでは成功率14.39%にまで落ち込むことがわかった。
- チェックポイントに基づくフィードバックが性能を改善し、ManusやOpenClawのような高度な実行フレームワークがワークフロー完了を大きく押し上げることが分かり、基盤モデル以上に実行設計が重要であることが示唆されている(データセットとコードは公開予定)。


