Claw-Eval: 自律エージェントの信頼できる評価に向けて
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- Claw-Evalは、自律エージェント向けのエンドツーエンド評価スイートとして導入され、軌跡の可視性、安全性/頑健性のカバレッジ、モダリティの幅に関するエージェントベンチマークのギャップを埋めることを目的としています。
- このスイートは、9つのカテゴリと3つの相互作用設定(サービスオーケストレーション、多モーダルな知覚/生成、複数ターンの専門家向け対話)にまたがる、300件の人手で検証されたタスクを対象とし、2,159件の細粒度ルーブリック項目を含みます。
- 3つの独立したエビデンス・チャネル—実行トレース、監査ログ、環境スナップショット—によって、エージェントのあらゆる行動を記録します。これにより、最終出力の確認だけではなく、軌跡を考慮した採点を可能にします。
- 採点は、Average Score、Pass@k、Pass^k などの指標を用いて、3回の試行にわたってCompletion、安全性、頑健性を評価します。「たまたま通った(lucky)」ことによる合格結果の可能性を下げるためです。
- 14の最先端モデルに関する実験では、既存の軌跡が不透明な評価では安全性違反の44%と頑健性失敗の13%を見逃していることが示されます。さらに、多モーダル性能は大きくばらつきがあり、動画では特に悪化することが多いです。エラー注入は主に、トップエンドの能力というより一貫性に対して影響します。




