ClawBench:AIエージェントは日常的なオンライン作業を完了できるのか?153タスク、144のライブWebサイト、最良モデルは33.3% [R]

Reddit r/MachineLearning / 2026/4/15

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ClawBenchはAIブラウザエージェントのための新しいベンチマークとして導入されており、144の稼働中サイト上で153件の実世界の日常タスクのパフォーマンスを評価します。
  • 報告された最良の成功率はわずか33.3%(Claude Sonnet 4.6)にとどまっており、最上位のモデルでさえ日常的なオンライン業務フローを確実に完了するのは難しいことを示しています。
  • ベンチマークでは顕著なカテゴリ差が見つかっています。金融・学術タスクは比較的容易(最良モデルで約50%)ですが、旅行や開発者関連タスクは大幅に難しいです。
  • ClawBenchは合成テストと異なり、実運用のサイトを用い、5層の行動/技術的証拠(セッションリプレイ、スクリーンショット、HTTP通信、推論トレース、ブラウザ操作)を取得します。さらに、最終的な不可逆操作を安全に防ぐためのリクエスト・インターセプタが用意されています。
  • 著者らは、インタラクティブなリーダーボード/トレース閲覧ツールを提供し、データセットと評価ツール群を公開して、さらなる研究と反復を促します。

私たちは ClawBench を紹介します。これは、144のライブなウェブサイトにまたがる 153の現実のありふれたタスクについて、AIブラウザエージェントを評価するベンチマークです。合成ベンチマークとは異なり、ClawBenchでは、実際の本番環境(プロダクション)上でエージェントをテストします。

主要な発見:

  • 最良のモデル(Claude Sonnet 4.6)でも成功率は 33.3% にとどまる
  • GLM-5(Zhipu AI)が 24.2% で2位 — テキストのみのモデルとしては意外なほど強い
  • ファイナンスおよびアカデミック系のタスクは簡単(最良モデルで50%);一方で旅行・開発(Dev)系のタスクははるかに難しい
  • どのカテゴリでも、どのモデルも50%を超えない — まだ長い道のりがある

ClawBenchの特徴:

  • 現実のライブなウェブサイト上でのタスク。サンドボックス環境ではない
  • 行動データを5層:セッションリプレイ、スクリーンショット、HTTPトラフィック、エージェントの推論トレース、ブラウザ操作
  • リクエストインターセプタ:不可逆なアクション(支払い、予約)の直前で最終HTTPリクエストをブロックし、安全に評価できる
  • すべてのタスクに対する 人手による正解(ground-truth)
  • ステップ単位で追跡可能な診断を備えた エージェント型評価器

リソース:

ご質問には何でもお答えします!タスク選定や評価手法について、積極的にフィードバックを募集しています。

[R] Research

submitted by /u/Extreme_Play_8554
[link] [comments]