Abstract
GUIエージェントは、OSWorldのような一般的なコンピュータ利用タスクにおいて目覚ましい能力を示してきました。しかし、現在のベンチマークは主に、隔離された単一アプリケーションのタスクに焦点を当てています。これは、複数のアプリケーションにまたがって調整し、複雑な職種固有のワークフローを達成するという、現実世界での重要な要件を見落としていることになります。このギャップを埋めるために、我々はWindowsWorldと名付けた「アプリ横断ワークフローにおけるコンピュータ利用ベンチマーク」を提示します。これは、現実の職業活動を模した複雑な多段階タスクに対してGUIエージェントを体系的に評価するよう設計されています。我々の手法では、16の職業によって導かれるマルチエージェントの枠組みを用いて、中間の検査(inspection)を伴う4つの難易度レベルのタスクを生成し、その後、人間のレビューによって洗練され、シミュレーション環境で実行します。得られるベンチマークには、17の一般的なデスクトップアプリケーションにまたがる平均5.0のサブ目標(sub-goals)を持つ181タスクが含まれており、そのうち78%は本質的に複数アプリケーションを跨ぐものです。主要な大規模モデルとエージェントの実験結果は以下を示しています。1) すべてのコンピュータ利用エージェントは複数アプリケーションのタスクで非常に低い性能を示し(成功率<21%)、単一アプリの単純なタスクの性能を大幅に下回ります。2) 3つ以上(\geq 3)のアプリケーションにまたがる条件判断と推論を要するタスクで、ほとんど失敗し、早期のサブ目標で停止します。3) 実行効率が低く、人間のステップ上限をはるかに超えても、タスクが失敗することが多いです。コード、ベンチマークデータ、および評価リソースはgithub.com/HITsz-TMG/WindowsWorldで利用可能です。