盲目的に行動しないで:作用効果の検証と自己修正による堅牢なGUI自動化
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 画像と言語を扱うGUIエージェントは、現実の環境がノイズを含む場合(遅延、描画の遅れ、割り込みなど)にサイレントに失敗することがあり、検出されない誤りが生じて失敗のループを悪化させる。
- 本論文では、Thinking–Verification–Action–Expectation(TVAE)ループを用いて作用の失敗を検出し、修正のための推論をトリガする検証駆動型GUIエージェントであるVeriGUIを提案する。
- VeriGUIは、2段階のパイプラインで学習される(合成の失敗軌跡によるRobust SFT、次に非対称な検証報酬を用いたGRPO)。これにより堅牢な回復行動を学習する。
- AndroidControlに基づくRobustness Benchmarkを導入し、失敗の認識性能と修正(回復)性能の両方を測定する。
- 実験の結果、VeriGUIは反復的で効果のないサイクルを減らし、通常のタスク性能を犠牲にすることなく回復成功率を向上させることが示される。


