GUI-AIMA：コンテキスト・アンカーによって固有のマルチモーダル注意をGUIグラウンディング用に整合させる

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

GUI-AIMAは、GUIグラウンディングを従来の「座標の直接生成」ではなく「命令に関連する視覚パッチ特定→そのパッチ内でのクリック位置決定」という考え方で効率化する手法を提案している。
本手法は、MLLMが持つ注意（attention）マップのネイティブなグラウンディング能力に着目し、パッチ単位のグラウンディング信号により多モーダル注意を整合（alignment）させる、attention-basedかつcoordinate-freeの教師あり微調整フレームワークとして設計されている。
さらに、簡略化したクエリ—視覚アテンション行列に対するマルチヘッド集約と、命令の種類に応じた適応的な信号計算により、多様な指示に対して適切なアテンション誘導を行うとしている。
GUI-AIMA-3Bはわずか約50.9万サンプル（約10.1万スクリーンショット）で学習し、高いデータ効率を示し、3BクラスでのSOTAとして複数ベンチマークで高精度（例：ScreenSpot-Pro 61.5%、ScreenSpot-v2 92.1%）を報告している。
coordinate-freeであるため、ズームイン段階をプラグアンドプレイで組み込みやすい点も特徴として挙げている。

要旨: グラフィカルユーザインタフェース（GUI）のグラウンディングは、コンピュータ利用エージェントにとって重要な能力であり、自然言語による指示を画面上の実行可能な領域へと対応づけます。既存のマルチモーダル大規模言語モデル（MLLM）のアプローチでは、GUIのグラウンディングを通常、テキストベースの座標生成タスクとして定式化します。しかし、視覚入力から正確な座標を直接生成することは難しく、しばしばデータ集約的です。より直感的な戦略は、まず指示に関連する視覚的なパッチを特定し、その中で正確なクリック位置を決定することです。一般のMLLMが、その注意（attention）マップに埋め込まれた形でネイティブなグラウンディング能力を備えている、という最近の観察に触発されて、効率的なGUIグラウンディングのための、注意に基づくかつ座標不要（coordinate-free）な教師あり微調整フレームワークであるGUI-AIMAを提案します。GUI-AIMAは、MLLMの本来的なマルチモーダル注意を、パッチ単位のグラウンディング信号と整合させます。これらの信号は、簡略化したクエリ‐視覚（query-visual）注意行列に対するマルチヘッド集約によって、多様なユーザ指示に応じて適応的に計算されます。さらに、その座標不要な形式により、プラグアンドプレイでズームイン段階を容易に統合できます。GUI-AIMA-3Bは、わずか509kサンプル（約101k枚のスクリーンショット）だけで学習され、優れたデータ効率を示し、軽量な学習によってMLLMのネイティブなグラウンディング能力が引き出され得ることを検証します。これは3Bモデル群の中で最先端の性能を達成しており、ScreenSpot-Proで平均精度61.5%、ScreenSpot-v2で92.1%、OSWorld-Gで68.1%、MMBench-GUI-L2で79.1%、UI-Visionで60.0%を得ています。プロジェクトページ: https://github.com/sjz5202/GUI-AIMA