UI-Zoomer:不確実性に基づく適応的ズームインによるGUIグラウンディング

arXiv cs.CL / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • UI-Zoomerは、特に小さなアイコンや密集したレイアウトにおけるスクリーンショット上でのGUIグラウンディングという課題に対し、一様なクロッピングではなく適応的なズームインによってローカライズ精度を向上させることで解決する。
  • 本手法は、ズームインするかどうか、またどのようにズームインするかを、不確実性の定量化(uncertainty quantification)問題として再定式化し、ローカライズが不確実な場合にのみズームインをトリガーする信頼度(confidence)に応じたゲートを用いる。
  • UI-Zoomerの不確実性に基づくクロップサイズ推定は、予測分散を、確率的サンプルにおける位置の広がりと、各サンプル内でのボックスの外形の大きさに分解することで、インスタンスごとのクロップ半径を算出する(全分散の法則に基づく)。
  • ScreenSpot-Pro、UI-Vision、ScreenSpot-v2での実験では、複数のモデルアーキテクチャにわたって強力なベースラインに対して一貫した改善が示され、報告されている向上幅はそれぞれ+13.4%、+10.3%、+4.2%までである。
  • このアプローチは推論時に学習不要(追加学習なし)であり、既存のGUIグラウンディング手法に対して実用的なそのままの拡張(ドロップイン)として導入できる。

Abstract

自然言語クエリからスクリーンショット内のインターフェース要素を特定するGUIグラウンディングは、小さなアイコンや密なレイアウトに対して依然として難しい課題です。推論時のズームイン手法は、クロップして高解像度で推論を再実行することでローカライズを改善しますが、固定サイズのクロップをすべてのインスタンスに一様に適用し、各ケースでモデルが実際に不確実であるかどうかを無視しています。本論文では、 \textbf{UI-Zoomer} を提案します。UI-Zoomer は、ズームインのトリガーとスケールの両方を、予測不確実性の定量化問題として扱う、訓練不要の適応的ズームインフレームワークです。信頼度に応じたゲートは、確率的候補間の空間的な合意と、トークンレベルの生成における信頼度を融合し、ローカライズが不確実な場合にのみ選択的にズームインをトリガーします。トリガーが有効になると、不確実性に駆動されたクロップサイズ決定モジュールが、予測分散をサンプル間の位置のばらつきと、サンプル内のボックスの広がりに分解し、全分散の法則に基づいてインスタンスごとのクロップ半径を導出します。ScreenSpot-Pro、UI-Vision、ScreenSpot-v2 に関する大規模な実験により、複数のモデルアーキテクチャにおいて強力なベースラインよりも一貫した改善が示され、追加の学習なしでそれぞれ最大 +13.4\%、+10.3\%、+4.2\% の向上を達成します。