UI-Zoomer:不確実性に基づく適応的ズームインによるGUIグラウンディング
arXiv cs.CL / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- UI-Zoomerは、特に小さなアイコンや密集したレイアウトにおけるスクリーンショット上でのGUIグラウンディングという課題に対し、一様なクロッピングではなく適応的なズームインによってローカライズ精度を向上させることで解決する。
- 本手法は、ズームインするかどうか、またどのようにズームインするかを、不確実性の定量化(uncertainty quantification)問題として再定式化し、ローカライズが不確実な場合にのみズームインをトリガーする信頼度(confidence)に応じたゲートを用いる。
- UI-Zoomerの不確実性に基づくクロップサイズ推定は、予測分散を、確率的サンプルにおける位置の広がりと、各サンプル内でのボックスの外形の大きさに分解することで、インスタンスごとのクロップ半径を算出する(全分散の法則に基づく)。
- ScreenSpot-Pro、UI-Vision、ScreenSpot-v2での実験では、複数のモデルアーキテクチャにわたって強力なベースラインに対して一貫した改善が示され、報告されている向上幅はそれぞれ+13.4%、+10.3%、+4.2%までである。
- このアプローチは推論時に学習不要(追加学習なし)であり、既存のGUIグラウンディング手法に対して実用的なそのままの拡張(ドロップイン)として導入できる。




