VLAA-GUI:いつ停止し、回復し、探索するかを知る——GUI自動化のためのモジュラー・フレームワーク

arXiv cs.CL / 2026/4/24

📰 ニュースModels & Research

要点

  • VLAA-GUIは、自律型GUIエージェントにおける「早すぎる停止」と「同じ失敗の繰り返しループ」を、Stop/Recover/Searchの3つの統合コンポーネントで解決するモジュラー・フレームワークです。
  • 義務化されたCompleteness Verifierは、完了ステップごとにUIで観測可能な成功条件を検証し、視覚的な証拠がない成功主張をエージェント側の照合で拒否します。
  • 義務化されたLoop Breakerは、操作モードの切替や画面状態の再発に応じた戦略変更、さらに省察シグナルと戦略転換の連動といった多層フィルタリングで反復失敗を抑えます。
  • 必要に応じてSearch Agentが、検索機能を備えたLLMへ直接問い合わせて未知のワークフローをオンラインで調べ、その結果をプレーンテキストで返します。
  • LinuxとWindowsのベンチマークで5つの主要バックボーンに評価し、OSWorldで77.5%、WindowsAgentArenaで61.0%を達成し、アブレーションでも一貫した改善が確認され、特にループしがちなモデルではLoop Breakerが無駄なステップをほぼ半減させる分析結果が示されています。