高ダイナミックな環境におけるGUIエージェントのベンチマーク化と改善

arXiv cs.CV / 2026/4/29

📰 ニュースModels & Research

要点

  • この論文では、従来のGUIエージェントが主に各アクション後の単一スクリーンショットに依存しており、高ダイナミックなインターフェースでは重要な情報が取りこぼされることで、部分的に(場合によっては)観測不能な意思決定過程になり得ると指摘しています。
  • 10のGUIアプリケーションを対象に、アクション間で重要なUI要素が大きく変化する多様な対話シナリオを扱うオンラインベンチマーク「DynamicGUIBench」を提案しています。
  • 提案手法「DynamicUI」は、画面録画の動画を入力に用い、動的知覚(dynamic perceiver)で動画フレームをクラスタリングし、セントロイドに対応するキャプションを生成して、注目すべきフレーム(動的文脈)を反復的に選択します。
  • さらに、選択フレームとテキスト文脈の不整合やノイズを抑えるため、アクション条件付きのフィルタリングで思考(thought)を洗練し、思考と行動の不一致や冗長性を軽減します。
  • 実験では、DynamicUIがDynamicGUIBench上で大幅に性能を向上させつつ、他の公開ベンチマークでも競争力のある性能を維持することが示されています。

要旨: 近年のグラフィカル・ユーザー・インターフェース(GUI)エージェントの進歩は、主として教師あり微調整(SFT)や強化学習(RL)のような学習パラダイムに焦点が当てられてきました。しかし、高ダイナミックなGUI環境という課題は、ほとんど十分に調査されていません。既存のエージェントは通常、各行動の後に1枚のスクリーンショットに依存して意思決定を行うため、重要な情報を含むGUI状態がしばしば適切に取り込まれない、部分観測(あるいは観測不能)なマルコフ決定過程になります。この課題を体系的に探究するために、10のアプリケーションにわたり、行動間で重要なインターフェースの変化を伴う多様な相互作用シナリオを対象とした包括的なオンラインGUIベンチマークであるDynamicGUIBenchを提案します。さらに、動的インターフェース向けに設計されたエージェントDynamicUIも提示します。DynamicUIは、相互作用プロセスの画面録画ビデオを入力として受け取り、動的パーサーバー(dynamic perceiver)、洗練戦略(refinement strategy)、リフレクション(reflection)の3つのコンポーネントから構成されます。具体的には、動的パーサーバーはGUIビデオのフレームをクラスタリングし、セントロイドに対するキャプションを生成して、最も情報量の多いフレームを反復的に選択し、顕著な動的コンテキストを形成します。選択されたフレーム間には、エージェントのテキストコンテキストとの間で不一致やノイズが存在する可能性があるため、洗練戦略では、思考―行動の不一致や冗長性を抑えるために、行動条件付きのフィルタリングを用いて思考を洗練します。洗練されたエージェントの軌跡に基づき、リフレクションモジュールは、その後の行動に対して効果的で正確なガイダンスを提供します。DynamicGUIBenchにおける実験の結果、DynamicUIは動的GUI環境において大幅に性能を向上させつつ、他の公開ベンチマークでも競争力のある性能を維持することが示されました。