盲目的に行動しないで:作用効果の検証と自己修正による堅牢なGUI自動化

arXiv cs.CL / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 画像と言語を扱うGUIエージェントは、現実の環境がノイズを含む場合(遅延、描画の遅れ、割り込みなど)にサイレントに失敗することがあり、検出されない誤りが生じて失敗のループを悪化させる。
  • 本論文では、Thinking–Verification–Action–Expectation(TVAE)ループを用いて作用の失敗を検出し、修正のための推論をトリガする検証駆動型GUIエージェントであるVeriGUIを提案する。
  • VeriGUIは、2段階のパイプラインで学習される(合成の失敗軌跡によるRobust SFT、次に非対称な検証報酬を用いたGRPO)。これにより堅牢な回復行動を学習する。
  • AndroidControlに基づくRobustness Benchmarkを導入し、失敗の認識性能と修正(回復)性能の両方を測定する。
  • 実験の結果、VeriGUIは反復的で効果のないサイクルを減らし、通常のタスク性能を犠牲にすることなく回復成功率を向上させることが示される。

Abstract

視覚言語モデル(VLM)に基づく自律GUIエージェントは、多くの場合、環境の応答が決定的であると仮定し、先行する操作が成功したかどうかを検証せずに行動を生成します。しかし、ネットワーク遅延、描画遅延、システムの中断がある現実の環境では、この仮定により、検出されない行動失敗、反復される無効な挙動、そして破局的なエラー蓄積が引き起こされます。さらに、オンライン相互作用のコストが高く、オフラインデータセットにリアルタイムのフィードバックがないため、頑健な回復戦略を学習することは困難です。 私たちは、VeriGUI(Verification-driven GUI Agent)を提案します。VeriGUIは、ノイズのある環境下での行動の結果と回復を明示的にモデル化します。VeriGUIは、失敗を検出し、修正に向けた推論を導くための Thinking--Verification--Action--Expectation(TVAE)フレームワークを導入し、Robust SFT(頑健SFT)と合成の失敗トラジェクトリを組み合わせ、さらに非対称な検証報酬を用いたGRPOを組み合わせる二段階の学習パイプラインを構築します。加えて、AndroidControl に基づく頑健性ベンチマークを構築し、失敗の認識と修正を評価します。実験の結果、VeriGUIは失敗のループを大幅に減らし、回復の成功率を向上させつつ、標準的なタスク性能において競争力のある水準を維持することが示されました。