ClawBench:AIエージェントは日常的なオンライン作業を完了できるか?

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ClawBenchはarXiv上の新しい評価フレームワークで、購入、予約、求人応募などを含む15カテゴリのもと、144のライブなプラットフォームにまたがる153の「日常的なオンライン作業」でAIエージェントをテストします。
  • このベンチマークは、オフラインのサンドボックスではなく本番環境のWebサイト上で動作させることで、動的なコンテンツや多段階のワークフローの複雑さを保持し、現実世界のWeb操作を反映することを目的としています。
  • これまでのベンチマークでは要求されなかった能力が明確に課題に含まれており、たとえばユーザーが提供したドキュメントからの情報抽出、多様な多段階フローのナビゲーション、記入量の多いフォームへの正確な記入といったタスクが含まれます。
  • 軽量なインターセプト層によって最終的な送信リクエストだけを遮断し、安全な評価を実現しつつ現実世界での副作用を引き起こさないようにしています。
  • 7つの最先端モデルを評価した初期結果では、専有型およびオープンソースのいずれのエージェントもタスクのごく一部しか完了できず、Claude Sonnet 4.6で33.3%にとどまっており、信頼できる汎用アシスタントへ向けた大幅な改善の余地が示されています。

Abstract

AIエージェントはあなたの受信箱を自動化できるかもしれませんが、生活の他の定型的な側面も自動化できるのでしょうか?日々のオンライン作業は、次世代のAIエージェントを評価するための、現実的である一方未解決のテストベッドです。そこで本研究では、ClawBenchを導入します。これは、人々が生活や仕事の中で定期的に達成する必要がある153個の単純なタスクの評価フレームワークであり、購入の完了や予約の手続きから、求人応募の提出までに及ぶ15カテゴリにわたり、144のライブなプラットフォームにまたがっています。これらのタスクには、ユーザが提供した文書から関連情報を取得すること、さまざまなプラットフォームにまたがる複数ステップのワークフローをナビゲートすること、多数の詳細フォームに正しく入力するなどの記述量の多い操作のように、既存のベンチマークを超える要求の高い能力が必要です。静的なページを備えたオフラインのサンドボックス内でエージェントを評価する既存のベンチマークとは異なり、ClawBenchは実運用のWebサイト上で動作し、現実世界のWebインタラクションにおける複雑さ、動的な性質、そして課題をそのまま保持します。軽量なインターセプト層が最終的な送信リクエストのみを捕捉しブロックすることで、実世界での副作用なしに安全に評価できるようにしています。我々の7つの最前線モデルに対する評価では、プロプライエタリモデルとオープンソースモデルのいずれも、これらのタスクのごく一部しか完了できないことが示されました。例えば、Claude Sonnet 4.6の達成率は33.3%にとどまります。ClawBenchに関する進展は、信頼できる汎用アシスタントとして機能できるAIエージェントにより近づくことにつながります。

ClawBench:AIエージェントは日常的なオンライン作業を完了できるか? | AI Navigate