Abstract
GUIエージェントの評価には、明確な課題があります。軌跡は長く、視覚的に根差しており、しかもオープンエンドですが、評価は同時に正確で、かつ解釈可能である必要があります。既存の手法は通常、行動—観測のシーケンス全体に対して単一の全体的な判断を下すことに依存しています。しかし、この戦略は長いホライズンのタスクでは信頼性が低く、さらに、エージェントがどこで、なぜ失敗したのかといった洞察を与えない二値の判定しか得られません。この不透明さは、エージェント開発のための診断ツールとしての評価の有用性を制限します。私たちは、GUI理解および解釈可能な診断評価(GUIDE)を提案します。これは、GUIタスクの構成的な性質を反映する3つの連続した段階に軌跡評価を分解する枠組みです。軌跡セグメンテーションは、全トレースを意味的に一貫したサブタスク単位へと分割します。サブタスク診断は、各単位を文脈の中で評価し、完了判定を与えるとともに、是正のための推奨を含む構造化された誤り分析を生成します。全体要約は、サブタスクごとの診断を集約してタスクレベルの判断を行います。GUIDEは、全軌跡ではなく境界で区切られたサブタスク区間に対して処理することで、タスクが複雑になるにつれて既存の評価器が陥る文脈過負荷を緩和します。GUIDEを3つのベンチマークで検証します。すなわち、932の軌跡からなる産業用eコマースデータセット、5つのWebエージェントタスクにまたがる1302の軌跡を含むAGENTREWARDBENCH、そしてモバイルデバイス制御のAndroidBenchです。すべての設定において、GUIDEは既存の評価器を大幅に上回り、最強のベースラインより最大で5.35パーセンテージポイント高い精度を達成します。同時に、エージェント改善に直接役立つ構造化された診断レポートも生成します。


