ClawBench:AIエージェントは日常的なオンライン作業を完了できるか?
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ClawBenchはarXiv上の新しい評価フレームワークで、購入、予約、求人応募などを含む15カテゴリのもと、144のライブなプラットフォームにまたがる153の「日常的なオンライン作業」でAIエージェントをテストします。
- このベンチマークは、オフラインのサンドボックスではなく本番環境のWebサイト上で動作させることで、動的なコンテンツや多段階のワークフローの複雑さを保持し、現実世界のWeb操作を反映することを目的としています。
- これまでのベンチマークでは要求されなかった能力が明確に課題に含まれており、たとえばユーザーが提供したドキュメントからの情報抽出、多様な多段階フローのナビゲーション、記入量の多いフォームへの正確な記入といったタスクが含まれます。
- 軽量なインターセプト層によって最終的な送信リクエストだけを遮断し、安全な評価を実現しつつ現実世界での副作用を引き起こさないようにしています。
- 7つの最先端モデルを評価した初期結果では、専有型およびオープンソースのいずれのエージェントもタスクのごく一部しか完了できず、Claude Sonnet 4.6で33.3%にとどまっており、信頼できる汎用アシスタントへ向けた大幅な改善の余地が示されています。



