Screen-to-Actionで欠けているものは何か？マルチモーダルGUI推論のためのUI-in-the-Loopパラダイムに向けて

arXiv cs.AI / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存の画面から操作へのGUI推論手法が、UI要素を十分に理解しないまま画面に基づく直接的な判断に重点を置いているために、解釈可能性が限られタスク失敗につながる、と主張する。
その解決として、新しいUI-in-the-Loop（UILoop）パラダイムを提案し、GUI推論を「画面 → UI要素 → 操作」というサイクルのプロセスに変えることで、マルチモーダルLLMが主要なUIコンポーネントの意味論と使い方を局所化し学習できるようにする。
この手法は、GUIタスク実行中の要素発見の精度を高め、推論結果の解釈可能性を向上させることを目的としている。
UI要素理解をより適切に評価するために、3つの評価指標を伴う、より難度の高いUI Comprehension（UI理解）タスクを導入する。
著者らは26K件のサンプルからなるUI Comprehension-Benchを公開し、手法をベンチマークおよび比較するとともに、UI理解において最先端の性能を報告し、GUI推論タスクでも良好な結果を示している。

要旨: 既存のグラフィカル・ユーザー・インターフェース（GUI）推論タスクは、特にUI理解において依然として難しい課題である。現在の手法は一般に、画面に基づく直接的な意思決定に依存しているため、解釈可能性が欠けており、UI要素の包括的な理解を見落とし、その結果としてタスク失敗につながる。UIの理解とインタラクションを強化するために、本研究ではUI-in-the-Loop（UILoop）と呼ぶ革新的なGUI推論パラダイムを提案する。我々のアプローチは、GUI推論タスクを「画面（Screen）→ UI要素（UI elements）→ 行動（Action）」の循環的なプロセスとして扱う。マルチモーダル・大規模言語モデル（MLLMs）が主要なUI要素のローカライズ、意味機能、および実用上の使い方を明示的に学習できるようにすることで、UILoopは正確な要素の発見を実現し、解釈可能な推論を行う。さらに、UI要素を中心としたより挑戦的なUI理解タスクを導入し、3つの評価指標を提示する。これに対応して、既存手法のUI要素の習熟度を包括的に評価するためのベンチマーク26Kサンプル（UI Comprehension-Bench）を提供する。大規模な実験により、UILoopはUI理解における最先端の性能を達成しつつ、GUI推論タスクでもより優れた結果をもたらすことが示される。