GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

arXiv cs.CL / 3/30/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • GUI-AIMAは、GUIグラウンディングを従来の「座標の直接生成」ではなく「命令に関連する視覚パッチ特定→そのパッチ内でのクリック位置決定」という考え方で効率化する手法を提案している。
  • 本手法は、MLLMが持つ注意(attention)マップのネイティブなグラウンディング能力に着目し、パッチ単位のグラウンディング信号により多モーダル注意を整合(alignment)させる、attention-basedかつcoordinate-freeの教師あり微調整フレームワークとして設計されている。
  • さらに、簡略化したクエリ—視覚アテンション行列に対するマルチヘッド集約と、命令の種類に応じた適応的な信号計算により、多様な指示に対して適切なアテンション誘導を行うとしている。
  • GUI-AIMA-3Bはわずか約50.9万サンプル(約10.1万スクリーンショット)で学習し、高いデータ効率を示し、3BクラスでのSOTAとして複数ベンチマークで高精度(例:ScreenSpot-Pro 61.5%、ScreenSpot-v2 92.1%)を報告している。
  • coordinate-freeであるため、ズームイン段階をプラグアンドプレイで組み込みやすい点も特徴として挙げている。

Abstract

Graphical user interface (GUI) grounding is a key capability for computer-use agents, mapping natural-language instructions to actionable regions on the screen. Existing Multimodal Large Language Model (MLLM) approaches typically formulate GUI grounding as a text-based coordinate generation task. However, directly generating precise coordinates from visual inputs is challenging and often data-intensive. A more intuitive strategy is to first identify instruction-relevant visual patches and then determine the exact click location within them. Motivated by recent observations that general MLLMs exhibit native grounding ability embedded in their attention maps, we propose GUI-AIMA, an attention-based and coordinate-free supervised fine-tuning framework for efficient GUI grounding. GUI-AIMA aligns the intrinsic multimodal attention of MLLMs with patch-wise grounding signals. These signals are calculated adaptively for diverse user instructions by multi-head aggregation on simplified query-visual attention matrices. Besides, its coordinate-free manner can easily integrate a plug-and-play zoom-in stage. GUI-AIMA-3B was trained with only 509k samples (around 101k screenshots), demonstrating exceptional data efficiency and verifying that light training can trigger the native grounding capability of MLLMs. It achieves state-of-the-art performance among 3B models, attaining an average accuracy of 61.5% on ScreenSpot-Pro, 92.1% on ScreenSpot-v2, 68.1% on OSWorld-G, 79.1% on MMBench-GUI-L2, and 60.0% on UI-Vision. Project page: https://github.com/sjz5202/GUI-AIMA