CocoaBench: 現場で評価する統合型デジタルエージェント

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • CocoaBenchは、ビジョン・検索・コーディングを柔軟に組み合わせる必要がある「統合デジタルエージェント」を、長期・人手設計のタスクで評価するための新しいベンチマークです。
  • 従来は各能力を単独で評価しがちだった点を補い、指示文と最終出力に対する自動評価関数のみでタスクを定義することで、さまざまなエージェント基盤間での比較をスケールしやすくしています。
  • CocoaAgentという軽量な共通スキャフォールドを用意し、モデルのバックボーンの違いによる影響を制御した比較実験を可能にしています。
  • 実験では、現行のエージェントはCocoaBenchで信頼性が低く、最高でも成功率45.1%にとどまり、推論・計画、ツール利用と実行、視覚グラウンディングの改善余地が大きいことが示されました。

概要: LLMエージェントは現在、ソフトウェアエンジニアリング、深層リサーチ、GUIオートメーション、その他さまざまな応用において強力に機能しています。一方で、近年のエージェント用の足場(スキャフォールド)やモデルは、これらの能力を統合されたシステムへますます組み込むようになっています。しかし、ほとんどの評価は依然としてこれらの能力を単独で試験するにとどまっており、異なる能力を組み合わせることを必要とする、より多様なユースケースに関するギャップが残されています。私たちはCocoaBenchを紹介します。これは、視覚、探索、コーディングを柔軟に組み合わせることを要する、人間が設計した長期(ロングホライゾン)のタスクから構築された、統合型デジタルエージェントのためのベンチマークです。タスクは、指示のみで指定され、最終出力に対して自動評価関数が適用されるため、多様なエージェント基盤(インフラストラクチャ)にわたる、信頼性の高いスケーラブルな評価が可能になります。さらに、モデルのバックボーン間で制御された比較を行うための、軽量な共有スキャフォールドであるCocoaAgentも提示します。実験の結果、現状のエージェントはCocoaBenchでの信頼性において依然として大きく及ばず、最も良い評価を受けたシステムでも成功率は45.1%にとどまりました。私たちの分析はまた、推論と計画、ツールの利用と実行、そして視覚的なグラウンディングにおいて、改善の余地が相当大きいことを示しています。