AI Navigate

AdaZoom-GUI: 指示の洗練化を用いた適応的ズームベースのGUI要素局所化

arXiv cs.CV / 2026/3/19

📰 ニュースTools & Practical UsageModels & Research

要点

  • AdaZoom-GUIは、自然言語コマンドを明示的な記述へ書き換える指示洗練化モジュールを備えた、適応的なズームベースのGUIグラウンディングフレームワークを導入し、局所化の精度を向上させます。
  • 小さな GUI 要素をより正確に局所化するための条件付きの第2段階のズームイン戦略を採用し、単純なケースでの不要な計算や文脈の損失を回避します。
  • 高品質な GUI グラウンディングデータセットのサポートを受け、クリック座標と要素の境界ボックスの両方を予測するために Group Relative Policy Optimization (GRPO) で訓練されています。
  • 実験では、同等またはそれ以上のパラメータ数を持つモデルの中で最先端の性能を示し、高解像度の GUI 理解と実用的な GUI エージェントの展開に対する有効性を強調します。
  • 高解像度インターフェースや関連アプリケーションにおける自動化された GUI 介入ワークフローへの潜在的な下流影響がある可能性があります。

要約: GUI grounding は、視覚と言語モデル(VLMs)が、自然言語の指示からターゲット要素を特定することによって、グラフィカルユーザーインターフェースと自動的に対話する能力を可能にする重要な能力です。しかし、GUIスクリーンショットにおけるグラウンディングは、高解像度の画像、小さなUI要素、曖昧なユーザー指示のため、なお難しいです。本研究では、AdaZoom-GUI、適応的なズームベースの GUI グラウンディングフレームワークを提案します。これにより、局所化の精度と指示理解の両方を改善します。我々のアプローチは、自然言語のコマンドを明示的かつ詳細な説明に書き換える指示の精練モジュールを導入し、グラウンディングモデルが正確な要素の局所化に焦点を合わせられるようにします。さらに、予測された小さな要素に対して選択的に第2段階推論を実行する条件付きズームイン戦略を設計し、局所化の精度を向上させつつ、より単純なケースでの不要な計算と文脈の喪失を回避します。このフレームワークを支援するために、高品質な GUI グラウンディングデータセットを構築し、GRPO(Group Relative Policy Optimization)を用いてグラウンディングモデルを訓練し、クリック座標と要素の境界ボックスの両方を予測できるようにします。公開ベンチマークでの実験は、我々の手法が比較可能またはさらに大きいパラメータサイズを持つモデルの中で最先端の性能を達成することを示しており、高解像度 GUI の理解と実用的な GUI エージェントの展開におけるその有効性を強調します。