Emergence WebVoyager：実環境における（Web）エージェントを一貫かつ透明性のある形で評価するために

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、タスクのフレーミングにおける曖昧さや、再現性や公平な比較を損なうような運用上のばらつきといった問題により、実世界の条件でAI Webエージェントを評価することはしばしば信頼できないと主張する。
既存のWebVoyagerベンチマークを監査し、文脈に整合した一貫した性能測定を得ることを難しくする欠点を特定する。
これに対処するため、著者らは「Emergence WebVoyager」を提案し、タスクの具体化方法、失敗の取り扱い、結果の注釈付けと報告方法を標準化する。
ベンチマークの標準化により評価の明確さが向上し、95.9%の評定者間一致を達成することで、より信頼性の高い採点と文書化が可能になることを示す。
この枠組みを用いてOpenAI Operatorを評価したところ、ドメインおよびタスク種別を通じて成功率68.6%が得られ、OpenAIが以前に報告していた87%より低いことが明らかになり、測定される性能は方法論によって左右されることを浮き彫りにする。