GPA: Learning GUI Process Automation from Demonstrations

arXiv cs.CV / 4/3/2026

💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research

Key Points

  • GPAは、1回のデモからGUIプロセスを再生できる軽量・汎用のビジョンベースRPAとして提案され、従来RPAの脆さやLLM系GUIエージェントの非決定性リスクを狙って低減する。
  • 具体的には、Sequential Monte Carloに基づくローカライゼーションでスケーリングや検出不確実性に対する頑健性を高め、readiness calibrationにより決定性と信頼性を担保する。
  • 実行は高速で完全にローカルに行えるため、プライバシー面でも利点があるとされる。
  • 他のエージェント(MCP/CLI)から呼び出す“ツール”としても機能し、エージェントは推論とオーケストレーションに集中し、GUI実行はGPAが担当する設計を示す。
  • パイロット実験では、Gemini 3 Pro(CUAツール)と比較して、長いホライズンのGUIタスクで成功率が高く、実行速度は約10倍速いと報告されている。

Abstract

GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.