広告

GPA:デモンストレーションからGUIプロセス自動化を学習する

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • GPAは、1回のデモからGUIプロセスを再生できる軽量・汎用のビジョンベースRPAとして提案され、従来RPAの脆さやLLM系GUIエージェントの非決定性リスクを狙って低減する。
  • 具体的には、Sequential Monte Carloに基づくローカライゼーションでスケーリングや検出不確実性に対する頑健性を高め、readiness calibrationにより決定性と信頼性を担保する。
  • 実行は高速で完全にローカルに行えるため、プライバシー面でも利点があるとされる。
  • 他のエージェント(MCP/CLI)から呼び出す「ツール」としても機能し、エージェントは推論とオーケストレーションに集中し、GUI実行はGPAが担当する設計を示す。
  • パイロット実験では、Gemini 3 Pro(CUAツール)と比較して、長いホライズンのGUIタスクで成功率が高く、実行速度は約10倍速いと報告されている。

要旨: GUIプロセス自動化(GPA)は、軽量だが汎用的な、視覚ベースのロボティック・プロセス・オートメーション(RPA)であり、単一のデモだけで高速かつ安定したプロセス再生を可能にします。従来のRPAの脆弱性と、現在の視覚言語モデルベースのGUIエージェントに内在する非決定論的なリスクに対処するために、GPAは3つの中核的な利点を導入します:(1) リスケーリングや検出の不確実性に対処するための、シーケンシャル・モンテカルロに基づくローカライゼーションによる堅牢性。(2) レディネス(準備状態)のキャリブレーションによって担保される、決定論的で信頼性の高い動作。(3) 高速で完全にローカルでの実行によるプライバシー。 このアプローチは、エンタープライズのワークフローに必要な適応性、堅牢性、セキュリティを提供します。さらに、コード能力を備えた他のエージェントによって、MCP/CLIツールとして利用することもでき、その場合エージェントは推論とオーケストレーションのみを行い、GPAがGUIの実行を担当します。私たちは試験的な実験を行い、GPAをGemini 3 Pro(CUAツール付き)と比較しました。その結果、GPAは長期的なGUIタスクの完了において、10倍高速な実行速度で、より高い成功率を達成することが分かりました。

広告