CocoaBench: Evaluating Unified Digital Agents in the Wild
arXiv cs.CL / 4/14/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- CocoaBenchは、ビジョン・検索・コーディングを柔軟に組み合わせる必要がある“統合デジタルエージェント”を、長期・人手設計のタスクで評価するための新しいベンチマークです。
- 従来は各能力を単独で評価しがちだった点を補い、指示文と最終出力に対する自動評価関数のみでタスクを定義することで、さまざまなエージェント基盤間での比較をスケールしやすくしています。
- CocoaAgentという軽量な共通スキャフォールドを用意し、モデル背骨(backbone)の違いによる影響を制御した比較実験を可能にしています。
- 実験では、現行のエージェントはCocoaBenchで信頼性が低く、最高でも成功率45.1%にとどまり、推論・計画、ツール利用と実行、視覚グラウンディングの改善余地が大きいことが示されました。
Related Articles

As China’s biotech firms shift gears, can AI floor the accelerator?
SCMP Tech

Why AI Teams Are Standardizing on a Multi-Model Gateway
Dev.to

a claude code/codex plugin to run autoresearch on your repository
Dev.to

AI startup claims to automate app making but actually just uses humans
Dev.to

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to