要旨: 大規模視覚言語モデル(LVLM)の急速な進歩にもかかわらず、きめ細かな状態条件付きGUIインタラクションは依然として困難です。現行の評価では、カバレッジが限られていること、ターゲット状態の定義が不正確であること、そして最終タスクの成功に過度に依存していることにより、エージェントがどこで、なぜ失敗するのかが見えにくくなっています。このギャップに対処するために、私たちは
\textbf{FineState-Bench} を導入します。これは、エージェントが指示を意図したUI制御へ正しく基底付け(grounding)し、正確なターゲット状態に到達できるかを評価するベンチマークです。FineState-Bench は、デスクトップ、Web、モバイルの各プラットフォームにまたがり、4つのインタラクションファミリと23種類のUIコンポーネントタイプを含む合計2,209件のインスタンスで構成されます。各インスタンスは、状態設定(fine-grained state setting)のための厳密なターゲット状態を明示的に指定しています。さらに、段階的成功率を持つ4段階の診断パイプラインである
\textit{FineState-Metrics} を提案します。このパイプラインは、Localization Success Rate(SR@Loc)、Interaction Success Rate(SR@Int)、Locate 時の Exact State Success Rate(ES-SR@Loc)、Interact 時の Exact State Success Rate(ES-SR@Int)を段階ごとに計算します。また、制御された w/ 対 w/o の比較によって、視覚的基底付け(visual grounding)の理由を診断するための
\textit{Visual Diagnostic Assistant}(VDA)を提案し、Description と境界ボックスの Localization Hint を生成します。FineState-Bench では、厳密なゴール状態の成功率は依然として低いです。ES-SR@Int は Web で最大 32.8\%、およびプラットフォーム間の平均で 22.8\% です。VDA のローカライゼーション・ヒントを用いることで、Gemini-2.5-Flash は +14.9 ES-SR@Int ポイント向上し、視覚的基底付けの改善による大きな余地が示唆されますが、それでも全体的な精度は、信頼できるきめ細かな状態条件付きインタラクションには不十分です
\href{https://github.com/FengxianJi/FineState-Bench}{Github.}
FineState-Bench:状態条件付きグラウンディングによるきめ細かなGUI状態設定のベンチマーク評価
arXiv cs.CV / 2026/5/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、細かな状態条件付きGUIインタラクションに特化した新しいベンチマークFineState-Benchを提案し、従来評価の限界(カバレッジの不足、曖昧な目標状態定義、最終タスク成功への依存など)を埋めることを目的としています。
- FineState-Benchには、デスクトップ・Web・モバイルの各プラットフォームにまたがる2,209件のインスタンスが収録されており、4つのインタラクションファミリと23種類のUIコンポーネント型を含み、各タスクには正確な目標状態が明示されています。
- 著者らはFineState-Metricsとして、4段階の診断フレームワーク(SR@Loc、SR@Int、ES-SR@Loc、ES-SR@Int)を提案し、ローカライズとインタラクションのどこでエージェントが失敗しているかを特定します。
- 結果として、正確な目標状態の成功率は低く、ES-SR@IntはWebで32.8%が最大で、プラットフォーム平均でも22.8%にとどまります。
- さらにVDA(Visual Diagnostic Assistant)のローカライズ用ヒントを使うと、Gemini-2.5-FlashのES-SR@Intが+14.9ポイント改善し、視覚的グラウンディングの改善による余地が大きいことが示唆されますが、現状では信頼できるきめ細かな状態条件付きGUI操作には精度が不足しています。




