ClawBench：AIエージェントは日常的なオンライン作業を完了できるのか？153タスク、144のライブWebサイト、最良モデルは33.3% [R]

Reddit r/MachineLearning / 2026/4/15

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

ClawBenchはAIブラウザエージェントのための新しいベンチマークとして導入されており、144の稼働中サイト上で153件の実世界の日常タスクのパフォーマンスを評価します。
報告された最良の成功率はわずか33.3%（Claude Sonnet 4.6）にとどまっており、最上位のモデルでさえ日常的なオンライン業務フローを確実に完了するのは難しいことを示しています。
ベンチマークでは顕著なカテゴリ差が見つかっています。金融・学術タスクは比較的容易（最良モデルで約50%）ですが、旅行や開発者関連タスクは大幅に難しいです。
ClawBenchは合成テストと異なり、実運用のサイトを用い、5層の行動／技術的証拠（セッションリプレイ、スクリーンショット、HTTP通信、推論トレース、ブラウザ操作）を取得します。さらに、最終的な不可逆操作を安全に防ぐためのリクエスト・インターセプタが用意されています。
著者らは、インタラクティブなリーダーボード／トレース閲覧ツールを提供し、データセットと評価ツール群を公開して、さらなる研究と反復を促します。

私たちは ClawBench を紹介します。これは、144のライブなウェブサイトにまたがる 153の現実のありふれたタスクについて、AIブラウザエージェントを評価するベンチマークです。合成ベンチマークとは異なり、ClawBenchでは、実際の本番環境（プロダクション）上でエージェントをテストします。

主要な発見:

最良のモデル（Claude Sonnet 4.6）でも成功率は 33.3% にとどまる
GLM-5（Zhipu AI）が 24.2% で2位 — テキストのみのモデルとしては意外なほど強い
ファイナンスおよびアカデミック系のタスクは簡単（最良モデルで50%）；一方で旅行・開発（Dev）系のタスクははるかに難しい
どのカテゴリでも、どのモデルも50%を超えない — まだ長い道のりがある

ClawBenchの特徴:

現実のライブなウェブサイト上でのタスク。サンドボックス環境ではない
行動データを5層：セッションリプレイ、スクリーンショット、HTTPトラフィック、エージェントの推論トレース、ブラウザ操作
リクエストインターセプタ：不可逆なアクション（支払い、予約）の直前で最終HTTPリクエストをブロックし、安全に評価できる
すべてのタスクに対する 人手による正解（ground-truth）
ステップ単位で追跡可能な診断を備えた エージェント型評価器

リソース:

論文: https://arxiv.org/abs/2604.08523
ウェブサイト（インタラクティブなリーダーボード + トレース閲覧）: https://claw-bench.com
データセット: https://huggingface.co/datasets/NAIL-Group/ClawBench
GitHub: https://github.com/reacher-z/ClawBench
PyPI: pip install clawbench-eval

ご質問には何でもお答えします！タスク選定や評価手法について、積極的にフィードバックを募集しています。

[R] Research

submitted by /u/Extreme_Play_8554
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/15Dailyインサイトを見る →

Black Hat USA

AI Business

Black Hat Asia

AI Business

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

Publickey

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

ClawBench：AIエージェントは日常的なオンライン作業を完了できるのか？153タスク、144のライブWebサイト、最良モデルは33.3% [R]

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し