ガイド:階層的診断による解釈可能なGUIエージェント評価

arXiv cs.AI / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、GUIエージェントの評価が難しいのは、長く、視覚に根ざした、オープンエンドな軌跡が、単に全体を一つの二値スコアで判定するのではなく、正確であると同時に解釈可能な判断を必要とするためだと主張する。
  • 完全な軌跡を意味的に首尾一貫したサブタスクに分解し、各サブタスクを文脈付きで診断し、そのサブ診断を統合してタスク全体の評決を導く、階層的な評価フレームワークGUIDEを提案する。
  • GUIDEのサブタスク単位の診断により、構造化された誤り分析と、是正のための推奨が生成され、エージェントがどこで、なぜ失敗するのかを特定することを目指す。
  • 著者らは、3つのベンチマーク(産業用eコマース、AGENTREWARDBENCH、AndroidBench)でGUIDEを検証し、最も強力なベースラインに対して最大5.35パーセンテージポイントの精度向上を報告する。
  • 長い軌跡全体ではなく、制約されたサブタスク区間を評価することで、タスクがより複雑になるにつれて既存の評価器の性能を損なう「文脈過負荷」を低減することを目的としている。

Abstract

GUIエージェントの評価には、明確な課題があります。軌跡は長く、視覚的に根差しており、しかもオープンエンドですが、評価は同時に正確で、かつ解釈可能である必要があります。既存の手法は通常、行動—観測のシーケンス全体に対して単一の全体的な判断を下すことに依存しています。しかし、この戦略は長いホライズンのタスクでは信頼性が低く、さらに、エージェントがどこで、なぜ失敗したのかといった洞察を与えない二値の判定しか得られません。この不透明さは、エージェント開発のための診断ツールとしての評価の有用性を制限します。私たちは、GUI理解および解釈可能な診断評価(GUIDE)を提案します。これは、GUIタスクの構成的な性質を反映する3つの連続した段階に軌跡評価を分解する枠組みです。
軌跡セグメンテーションは、全トレースを意味的に一貫したサブタスク単位へと分割します。サブタスク診断は、各単位を文脈の中で評価し、完了判定を与えるとともに、是正のための推奨を含む構造化された誤り分析を生成します。全体要約は、サブタスクごとの診断を集約してタスクレベルの判断を行います。GUIDEは、全軌跡ではなく境界で区切られたサブタスク区間に対して処理することで、タスクが複雑になるにつれて既存の評価器が陥る文脈過負荷を緩和します。GUIDEを3つのベンチマークで検証します。すなわち、932の軌跡からなる産業用eコマースデータセット、5つのWebエージェントタスクにまたがる1302の軌跡を含むAGENTREWARDBENCH、そしてモバイルデバイス制御のAndroidBenchです。すべての設定において、GUIDEは既存の評価器を大幅に上回り、最強のベースラインより最大で5.35パーセンテージポイント高い精度を達成します。同時に、エージェント改善に直接役立つ構造化された診断レポートも生成します。