AI Navigate

CUAAudit: 自律的なコンピュータ利用エージェントの審査者としての視覚-言語モデルのメタ評価

arXiv cs.AI / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この研究は、macOS、Windows、Linux全体にわたり、Vision-Language Modelsを自律的な審査者としてコンピュータ利用エージェントを評価します。
  • 五つの Vision-Language Models(視覚-言語モデル)を対象とした大規模なメタ評価を実施し、自然言語指示と最終環境状態からタスクの成功を判断します。
  • 結果は、単純な設定で高い精度と較正を示す一方、複雑または異種環境では顕著な性能低下が見られ、モデル間で顕著な不一致が生じることが分かりました。
  • 著者らは、これらの制限は、実世界でCUAsを展開する際に評価者の信頼性、不確実性、分散を明示的に扱う必要があると主張しています。

要旨:
コンピュータ利用エージェント(CUA)は、人間とコンピューターの相互作用における新しいパラダイムとして現れており、高レベルの自然言語指示を知覚することでデスクトップ環境でタスクを自律的に実行できるようになっています。これらのエージェントはますます高性能化しており、多様なデスクトップ環境へ展開されているため、その挙動をスケーラブルで信頼性の高い方法で評価することが重要な課題となっています。既存の評価パイプラインは静的ベンチマーク、ルールベースの成功判定、あるいは手動検査に依存しており、それらは壊れやすくコストが高く、現実の使用状況と十分に一致していません。本研究では、Vision-Language Models(視覚-言語モデル)を自律的な審査者としてCUAのタスク完了を観測可能なインタラクションから直接評価し、自然言語指示と最終環境状態を前提としてタスクの成功を判断する5つのVLMの大規模メタ評価を実施します。我々の評価は、macOS、Windows、Linux環境にわたる三つの広く用いられるCUAベンチマークを横断し、審査者の挙動を三つの補完的な次元—正確さ、信頼度推定の較正、モデル間の同意—に沿って分析します。最先端のVLMは高い精度と較正を達成する一方で、すべての審査者はより複雑または異種の環境において顕著な性能低下を示し、さらには高性能なモデルでも判断に重大な不一致を示します。これらの結果は、現在のモデルベースの監査アプローチの根本的な限界を露わにし、現実世界の環境で自律的CUAを展開する際には、評価者の信頼性、不確実性、および分散を明示的に考慮する必要があることを強調しています。