私たちは ClawBench を紹介します。これは、144のライブなウェブサイトにまたがる 153の現実のありふれたタスクについて、AIブラウザエージェントを評価するベンチマークです。合成ベンチマークとは異なり、ClawBenchでは、実際の本番環境(プロダクション)上でエージェントをテストします。
主要な発見:
- 最良のモデル(Claude Sonnet 4.6)でも成功率は 33.3% にとどまる
- GLM-5(Zhipu AI)が 24.2% で2位 — テキストのみのモデルとしては意外なほど強い
- ファイナンスおよびアカデミック系のタスクは簡単(最良モデルで50%);一方で旅行・開発(Dev)系のタスクははるかに難しい
- どのカテゴリでも、どのモデルも50%を超えない — まだ長い道のりがある
ClawBenchの特徴:
- 現実のライブなウェブサイト上でのタスク。サンドボックス環境ではない
- 行動データを5層:セッションリプレイ、スクリーンショット、HTTPトラフィック、エージェントの推論トレース、ブラウザ操作
- リクエストインターセプタ:不可逆なアクション(支払い、予約)の直前で最終HTTPリクエストをブロックし、安全に評価できる
- すべてのタスクに対する 人手による正解(ground-truth)
- ステップ単位で追跡可能な診断を備えた エージェント型評価器
リソース:
- 論文: https://arxiv.org/abs/2604.08523
- ウェブサイト(インタラクティブなリーダーボード + トレース閲覧): https://claw-bench.com
- データセット: https://huggingface.co/datasets/NAIL-Group/ClawBench
- GitHub: https://github.com/reacher-z/ClawBench
- PyPI:
pip install clawbench-eval
ご質問には何でもお答えします!タスク選定や評価手法について、積極的にフィードバックを募集しています。
[R] Research
[link] [comments]




