GUIエージェントに向けて：GUIグラウンディングのための視覚・言語ディフュージョンモデル

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

離散ディフュージョン型のビジョン・ランゲージモデル（DVLM）が、従来の自己回帰（AR）モデルの代替としてGUIグラウンディングに有効かを検証し、GUI状況に合わせてLLaDA-Vを単発行動とバウンディングボックス予測へ適応した。
バウンディングボックス幾何の階層構造を捉えるために線形マスクと決定的マスクを組み合わせたハイブリッド・マスキング戦略を提案し、GUI適応LLaDA-V（線形マスク）に比べてStep Success Rate（SSR）を最大6.1ポイント改善した。
Web/デスクトップ/モバイルの4種のデータセット評価では、ハイブリッド・マスキングを用いた拡散モデルが一貫して線形マスク版を上回り、事前学習が限定的でもAR系と競争力のある性能を示した。
論文のアブレーションから、拡散ステップ数・生成長・ブロック長を増やすほど精度は向上するがレイテンシも上がり、精度は一定以上の拡散ステップで頭打ちになることが明らかになった。
GUIドメインの多様性を増やす形で学習データを拡張すると、レイテンシが約1.3秒減少し、ベンチマーク平均でグラウンディング精度が約20ポイント向上し、拡散ベースGUIエージェントへの有望な一歩と結論づけている。

Abstract

自己回帰（AR）の視覚言語モデル（VLM）は、モーダル理解、推論、グラフィカルユーザインタフェース（GUI）におけるグラウンディングにおいて長年にわたり支配的でした。近年、離散拡散の視覚言語モデル（DVLMs）は、双方向アテンション、並列トークン生成、反復的な洗練を提供し、モーダル推論で強い性能を示しています。しかし、それらがGUIグラウンディングに対して持つ可能性は未探索のままです。本研究では、離散DVLMがGUIグラウンディングにおけるARモデルの実行可能な代替となり得るかを評価します。単一ターンのアクションとバウンディングボックス予測のためにLLaDA-Vを適応し、この課題をマルチモーダル入力からのテキスト生成として定式化します。バウンディングボックス幾何の階層構造をよりよく捉えるために、線形マスキングと決定論的マスキングを組み合わせたハイブリッドなマスキングスケジュールを提案します。これにより、線形マスキングで訓練したGUI適応LLaDA-Vに比べて、ステップ成功率（SSR）で最大6.1ポイントのグラウンディング精度向上を実現します。Web、デスクトップ、モバイルのインタフェースにまたがる4つのデータセットでの評価では、ハイブリッドマスキングを用いた適応拡散モデルが、線形マスキング版を一貫して上回り、事前学習が限られているにもかかわらず、自己回帰型の対応手法と競争力のある性能を示します。系統的アブレーションにより、拡散ステップ数、生成長、ブロック長を増やすと精度は向上する一方でレイテンシも増加し、ある拡散ステップ数を超えると精度が頭打ちになることが明らかになりました。多様なGUIドメインを用いて訓練データを拡張すると、レイテンシは約1.3秒低下し、ベンチマーク全体でグラウンディング精度が平均20ポイント向上します。これらの結果は、離散DVLMがGUIグラウンディングの有望なモデリング枠組みであり、拡散ベースのGUIエージェントに向けた重要な一歩であることを示しています。