CocoaBench: Evaluating Unified Digital Agents in the Wild

arXiv cs.CL / 4/14/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • CocoaBenchは、ビジョン・検索・コーディングを柔軟に組み合わせる必要がある“統合デジタルエージェント”を、長期・人手設計のタスクで評価するための新しいベンチマークです。
  • 従来は各能力を単独で評価しがちだった点を補い、指示文と最終出力に対する自動評価関数のみでタスクを定義することで、さまざまなエージェント基盤間での比較をスケールしやすくしています。
  • CocoaAgentという軽量な共通スキャフォールドを用意し、モデル背骨(backbone)の違いによる影響を制御した比較実験を可能にしています。
  • 実験では、現行のエージェントはCocoaBenchで信頼性が低く、最高でも成功率45.1%にとどまり、推論・計画、ツール利用と実行、視覚グラウンディングの改善余地が大きいことが示されました。

Abstract

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.