Towards GUI Agents: Vision-Language Diffusion Models for GUI Grounding
arXiv cs.AI / 3/30/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 離散ディフュージョン型のビジョン・ランゲージモデル(DVLM)が、従来の自己回帰(AR)モデルの代替としてGUIグラウンディングに有効かを検証し、GUI状況に合わせてLLaDA-Vを単発行動とバウンディングボックス予測へ適応した。
- バウンディングボックス幾何の階層構造を捉えるために線形マスクと決定的マスクを組み合わせたハイブリッド・マスキング戦略を提案し、GUI適応LLaDA-V(線形マスク)に比べてStep Success Rate(SSR)を最大6.1ポイント改善した。
- Web/デスクトップ/モバイルの4種のデータセット評価では、ハイブリッド・マスキングを用いた拡散モデルが一貫して線形マスク版を上回り、事前学習が限定的でもAR系と競争力のある性能を示した。
- 論文のアブレーションから、拡散ステップ数・生成長・ブロック長を増やすほど精度は向上するがレイテンシも上がり、精度は一定以上の拡散ステップで頭打ちになることが明らかになった。
- GUIドメインの多様性を増やす形で学習データを拡張すると、レイテンシが約1.3秒減少し、ベンチマーク平均でグラウンディング精度が約20ポイント向上し、拡散ベースGUIエージェントへの有望な一歩と結論づけている。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

Black Hat Asia
AI Business
Freedom and Constraints of Autonomous Agents — Self-Modification, Trust Boundaries, and Emergent Gameplay
Dev.to
Von Hammerstein’s Ghost: What a Prussian General’s Officer Typology Can Teach Us About AI Misalignment
Reddit r/artificial
Stop Tweaking Prompts: Build a Feedback Loop Instead
Dev.to
Privacy-Preserving Active Learning for autonomous urban air mobility routing under real-time policy constraints
Dev.to