GPA: Learning GUI Process Automation from Demonstrations
arXiv cs.CV / 4/3/2026
💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research
Key Points
- GPAは、1回のデモからGUIプロセスを再生できる軽量・汎用のビジョンベースRPAとして提案され、従来RPAの脆さやLLM系GUIエージェントの非決定性リスクを狙って低減する。
- 具体的には、Sequential Monte Carloに基づくローカライゼーションでスケーリングや検出不確実性に対する頑健性を高め、readiness calibrationにより決定性と信頼性を担保する。
- 実行は高速で完全にローカルに行えるため、プライバシー面でも利点があるとされる。
- 他のエージェント(MCP/CLI)から呼び出す“ツール”としても機能し、エージェントは推論とオーケストレーションに集中し、GUI実行はGPAが担当する設計を示す。
- パイロット実験では、Gemini 3 Pro(CUAツール)と比較して、長いホライズンのGUIタスクで成功率が高く、実行速度は約10倍速いと報告されている。




