GUI-Perturbed：ドメインランダム化がGUIグラウンディング・モデルの体系的な脆弱性を明らかにする

arXiv cs.LG / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

GUIグラウンディング・モデルは標準ベンチマークで高い精度を示す一方、指示が要素名の直接参照ではなく空間推論を要求する場合に大きく（27〜56ポイント）性能が低下する。
既存ベンチマークは各スクリーンショットを単一の固定指示で1回だけ評価するため、ロバスト性の弱点を見落としがちだと論じている。
GUI-Perturbedは、視覚シーンと指示を独立に変化させて、グラウンディング・モデルの頑健性を別々の能力軸ごとに測定するための枠組みである。
3つの7Bモデルでの実験では、関係（リレーショナル）指示で全モデルにわたって体系的な精度崩壊が起き、約70%のブラウザズームでも統計的に有意な劣化が確認され、ランク8のLoRAによるデータ拡張つき微調整はむしろ性能を悪化させた。
著者らは、診断的な評価を集計ベンチマーク以上に行えるように、データセット、拡張パイプライン、微調整済みモデルを公開する。

Abstract

GUIグラウンディングモデルは標準ベンチマークで85%超の精度を報告しているにもかかわらず、指示が要素名の直接的な提示ではなく空間的推論を要求する場合には27〜56パーセントポイント低下します。現在のベンチマークがこれを見逃しているのは、各スクリーンショットを1つの固定された指示で一度だけ評価しているためです。私たちは、視覚シーンと指示を独立に変化させることでグラウンディングの頑健性を測定する、制御された摂動フレームワークGUI-Perturbedを導入します。同一のアーキテクチャ系統から得た3つの7Bモデルを評価したところ、関係（リレーショナル）に関する指示がすべてのモデルで体系的な精度の崩壊を引き起こすこと、ブラウザのズームを70%にすると統計的に有意な劣化が生じること、さらに拡張データによるrank-8 LoRAのファインチューニングは性能をむしろ改善せずに悪化させることが分かりました。独立した軸に沿って摂動させることで、GUI-Perturbedは、影響を受ける特定の能力軸――空間的推論、視覚的頑健性、推論のキャリブレーション――を切り分け、集約ベンチマークでは得られない診断用の信号を提供します。私たちはデータセット、拡張（オーグメンテーション）パイプライン、ファインチューニング済みモデルを公開します。