CocoaBench: Evaluating Unified Digital Agents in the Wild
arXiv cs.CL / 4/14/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- CocoaBenchは、ビジョン・検索・コーディングを柔軟に組み合わせる必要がある“統合デジタルエージェント”を、長期・人手設計のタスクで評価するための新しいベンチマークです。
- 従来は各能力を単独で評価しがちだった点を補い、指示文と最終出力に対する自動評価関数のみでタスクを定義することで、さまざまなエージェント基盤間での比較をスケールしやすくしています。
- CocoaAgentという軽量な共通スキャフォールドを用意し、モデル背骨(backbone)の違いによる影響を制御した比較実験を可能にしています。
- 実験では、現行のエージェントはCocoaBenchで信頼性が低く、最高でも成功率45.1%にとどまり、推論・計画、ツール利用と実行、視覚グラウンディングの改善余地が大きいことが示されました。
Related Articles

Meta Pivots From Open Weights, Big Pharma Bets On AI, Regulatory Patchwork, Simulating Human Cohorts
The Batch
Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.
Anthropic News

Why Claude Ignores Your Instructions (And How to Fix It With CLAUDE.md)
Dev.to

Latent Multi-task Architecture Learning
Dev.to
Generative Simulation Benchmarking for circular manufacturing supply chains with zero-trust governance guarantees
Dev.to