GUI-Perturbed:ドメインランダム化がGUIグラウンディング・モデルの体系的な脆弱性を明らかにする
arXiv cs.LG / 2026/4/17
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- GUIグラウンディング・モデルは標準ベンチマークで高い精度を示す一方、指示が要素名の直接参照ではなく空間推論を要求する場合に大きく(27〜56ポイント)性能が低下する。
- 既存ベンチマークは各スクリーンショットを単一の固定指示で1回だけ評価するため、ロバスト性の弱点を見落としがちだと論じている。
- GUI-Perturbedは、視覚シーンと指示を独立に変化させて、グラウンディング・モデルの頑健性を別々の能力軸ごとに測定するための枠組みである。
- 3つの7Bモデルでの実験では、関係(リレーショナル)指示で全モデルにわたって体系的な精度崩壊が起き、約70%のブラウザズームでも統計的に有意な劣化が確認され、ランク8のLoRAによるデータ拡張つき微調整はむしろ性能を悪化させた。
- 著者らは、診断的な評価を集計ベンチマーク以上に行えるように、データセット、拡張パイプライン、微調整済みモデルを公開する。




