GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
arXiv cs.CL / 3/30/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- GUI-AIMAは、GUIグラウンディングを従来の「座標の直接生成」ではなく「命令に関連する視覚パッチ特定→そのパッチ内でのクリック位置決定」という考え方で効率化する手法を提案している。
- 本手法は、MLLMが持つ注意(attention)マップのネイティブなグラウンディング能力に着目し、パッチ単位のグラウンディング信号により多モーダル注意を整合(alignment)させる、attention-basedかつcoordinate-freeの教師あり微調整フレームワークとして設計されている。
- さらに、簡略化したクエリ—視覚アテンション行列に対するマルチヘッド集約と、命令の種類に応じた適応的な信号計算により、多様な指示に対して適切なアテンション誘導を行うとしている。
- GUI-AIMA-3Bはわずか約50.9万サンプル(約10.1万スクリーンショット)で学習し、高いデータ効率を示し、3BクラスでのSOTAとして複数ベンチマークで高精度(例:ScreenSpot-Pro 61.5%、ScreenSpot-v2 92.1%)を報告している。
- coordinate-freeであるため、ズームイン段階をプラグアンドプレイで組み込みやすい点も特徴として挙げている。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

Black Hat Asia
AI Business

Knowledge Governance For The Agentic Economy.
Dev.to

AI server farms heat up the neighborhood for miles around, paper finds
The Register

Paperclip: Công Cụ Miễn Phí Biến AI Thành Đội Phát Triển Phần Mềm
Dev.to
Does the Claude “leak” actually change anything in practice?
Reddit r/LocalLLaMA