WindowsWorld:職業別の複数アプリ連携環境における自律GUIエージェントのプロセス中心ベンチマーク

arXiv cs.AI / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • この論文では、単一アプリの孤立した作業ではなく、現実的な職業別ワークフローに近い「複数アプリ連携」を伴うGUIエージェントの性能を評価する新しいベンチマークWindowsWorldを提案しています。
  • WindowsWorldは16の職業に基づくマルチエージェントの枠組みで4つの難易度レベルのタスクを生成し、人のレビューで精錬したうえでシミュレートされたデスクトップ環境で実行します。
  • ベンチマークは17の一般的なデスクトップアプリにまたがる181タスクを含み、78%は本質的に複数アプリの連携を要し、平均5.0のサブゴールで構成されています。
  • 主な大規模モデルとエージェントでの実験では、多アプリタスクの成功率が<21%と非常に低く、3つ以上のアプリをまたぐ条件判断や推論が特に難しいこと、さらに手順上限を大きく超えても失敗するなど実行効率が低いことが示されています。
  • 著者らは、GitHubでコード、ベンチマークデータ、評価用リソースを公開し、複数アプリ連携型GUIエージェントの開発と評価を後押ししています。

Abstract

GUIエージェントは、OSWorldのような一般的なコンピュータ利用タスクにおいて目覚ましい能力を示してきました。しかし、現在のベンチマークは主に、隔離された単一アプリケーションのタスクに焦点を当てています。これは、複数のアプリケーションにまたがって調整し、複雑な職種固有のワークフローを達成するという、現実世界での重要な要件を見落としていることになります。このギャップを埋めるために、我々はWindowsWorldと名付けた「アプリ横断ワークフローにおけるコンピュータ利用ベンチマーク」を提示します。これは、現実の職業活動を模した複雑な多段階タスクに対してGUIエージェントを体系的に評価するよう設計されています。我々の手法では、16の職業によって導かれるマルチエージェントの枠組みを用いて、中間の検査(inspection)を伴う4つの難易度レベルのタスクを生成し、その後、人間のレビューによって洗練され、シミュレーション環境で実行します。得られるベンチマークには、17の一般的なデスクトップアプリケーションにまたがる平均5.0のサブ目標(sub-goals)を持つ181タスクが含まれており、そのうち78%は本質的に複数アプリケーションを跨ぐものです。主要な大規模モデルとエージェントの実験結果は以下を示しています。1) すべてのコンピュータ利用エージェントは複数アプリケーションのタスクで非常に低い性能を示し(成功率<21%)、単一アプリの単純なタスクの性能を大幅に下回ります。2) 3つ以上(\geq 3)のアプリケーションにまたがる条件判断と推論を要するタスクで、ほとんど失敗し、早期のサブ目標で停止します。3) 実行効率が低く、人間のステップ上限をはるかに超えても、タスクが失敗することが多いです。コード、ベンチマークデータ、および評価リソースはgithub.com/HITsz-TMG/WindowsWorldで利用可能です。