Claw-Eval: 自律エージェントの信頼できる評価に向けて

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • Claw-Evalは、自律エージェント向けのエンドツーエンド評価スイートとして導入され、軌跡の可視性、安全性/頑健性のカバレッジ、モダリティの幅に関するエージェントベンチマークのギャップを埋めることを目的としています。
  • このスイートは、9つのカテゴリと3つの相互作用設定(サービスオーケストレーション、多モーダルな知覚/生成、複数ターンの専門家向け対話)にまたがる、300件の人手で検証されたタスクを対象とし、2,159件の細粒度ルーブリック項目を含みます。
  • 3つの独立したエビデンス・チャネル—実行トレース、監査ログ、環境スナップショット—によって、エージェントのあらゆる行動を記録します。これにより、最終出力の確認だけではなく、軌跡を考慮した採点を可能にします。
  • 採点は、Average Score、Pass@k、Pass^k などの指標を用いて、3回の試行にわたってCompletion、安全性、頑健性を評価します。「たまたま通った(lucky)」ことによる合格結果の可能性を下げるためです。
  • 14の最先端モデルに関する実験では、既存の軌跡が不透明な評価では安全性違反の44%と頑健性失敗の13%を見逃していることが示されます。さらに、多モーダル性能は大きくばらつきがあり、動画では特に悪化することが多いです。エラー注入は主に、トップエンドの能力というより一貫性に対して影響します。

Abstract

大規模言語モデルは、現実のソフトウェア環境において多段階のワークフローを実行する自律エージェントとしてますます導入されている。しかし、既存のエージェントベンチマークには3つの重大な制約がある: (1) 最終出力だけをチェックする軌跡(trajectory)非透過な採点、(2) 安全性および頑健性の評価が十分に特定されていないこと、(3) 対応するモダリティの範囲と相互作用パラダイムが狭いこと。私たちは、この3つのギャップすべてに対処するエンドツーエンド評価スイートであるClaw-Evalを提案する。Claw-Evalは、3つのグループにまたがる9カテゴリで、合計300件の人手で検証されたタスクから構成される(一般的なサービスのオーケストレーション、モダリティをまたぐ知覚と生成、複数ターンの専門的な対話)。すべてのエージェントの行動は、3つの独立した証拠チャネル(実行トレース、監査ログ、環境スナップショット)を通じて記録され、2,159件のきめ細かなルーブリック項目に対する軌跡を考慮した採点が可能になる。採点プロトコルはCompletion、安全性、安全性、頑健性を評価し、3回の試行にわたってAverage Score、Pass@k、Pass^kを報告することで、偶然の結果ではなく本当の能力を識別する。最前線の14のモデルに対する実験により、次が明らかになった: (1) 軌跡非透過な評価は体系的に信頼性が低く、私たちのハイブリッド・パイプラインが検出する安全性違反の44%と頑健性の失敗の13%を見逃す; (2) 制御された誤り注入は主としてピーク能力というよりも一貫性を低下させ、Pass^3は最大で24%低下する一方でPass@3は安定している; (3) モダリティの性能は大きく変動し、多くのモデルはドキュメントや画像よりも動画のほうで性能が悪く、すべてのモダリティにおいて単一のモデルが支配的であることはない。ベンチマークを超えて、Claw-Evalはエージェント開発のための実行可能な指針を示し、単に能力があるだけでなく確実に導入可能なエージェントを構築するために何が必要なのかを明らかにする。