要旨: 視覚言語モデル(VLM)によって駆動されるグラフィカル・ユーザインタフェース(GUI)エージェントは、受動的な支援から自律的な運用へと急速に移行している。しかし、このような制限のない行動空間は、ユーザを、深刻かつ不可逆的な金銭的・プライバシー上・社会的危害にさらす。既存の安全策は、プロンプトエンジニアリング、脆弱なヒューリスティック、ならびにVLMを批評者(critic)として用いる手法に依存しており、形式的検証やユーザが調整できる保証を備えていない。我々は、危害を与える実行済み行動に関して統計的な保証を提供する、事後ポリシー・事前行動(post-policy, pre-action)型の安全性保護フレームワークであるCORA(COnformal Risk-controlled GUI Agent)を提案する。CORAは、安全性を「選択的な行動実行」として再定式化する。具体的には、提案された各ステップに対して条件付きリスクを推定するGuardianモデルを学習する。生のスコアに閾値を設けるのではなく、Conformal Risk Controlを用いて、ユーザが指定したリスク予算を満たす「実行/棄却(abstain)」の境界を校正し、棄却された行動を、訓練可能なDiagnosticianモデルへルーティングする。このDiagnosticianは、棄却された行動に対してマルチモーダルな推論を行い、ユーザの負担を最小化するための介入提案(例: 確認、内省、または中止)を行う。Goal-Lockメカニズムは、視覚インジェクション攻撃への耐性のために、明確化され凍結されたユーザ意図への評価を固定する。こうしたパラダイムを厳密に評価するために、実世界の設定下でステップ単位の危害ラベルを付与した、モバイルにおける安全性違反の新しいベンチマークであるPhone-Harmを導入する。Phone-Harmおよび多様なベースラインに対する公開ベンチマークでの実験により、CORAが安全性—有用性—中断(interruption)のパレートフロンティアを改善し、自律的なGUI実行のための、実用的かつ統計的に根拠のある安全性パラダイムを提供することが示される。コードとベンチマークはcora-agent.github.ioで利用可能です。
CORA:保護されたモバイルGUIオートメーションのための、適合的リスク制御エージェント(Conformal Risk-Controlled Agents)
arXiv cs.LG / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- CORAは、VLM搭載の自律型モバイルGUIエージェントに対する、事後ポリシー・事前アクションの保護(サッフィーニング)フレームワークとして提案されており、有害に実行されるアクションを統計的に保証された形で削減することに焦点を当てている。
- この手法では、行動条件付きリスクを推定するGuardianモデルを学習し、適合的リスク制御(Conformal Risk Control)によって、ユーザが指定したリスク予算に整合する、実行/棄却(abstain)のキャリブレーション済み判断境界を作成する。
- 却下された(高リスク)アクションは、学習可能なDiagnosticianにルーティングされ、マルチモーダル推論を用いて、確認(confirm)、熟考(reflect)、中止(abort)などの介入を推奨し、ユーザ負担の軽減を目指す。
- リスク評価を明確化され、凍結されたユーザの意図に結び付けるGoal-Lockメカニズムが導入され、視覚インジェクション攻撃への耐性を高める。
- 本論文では、実世界のモバイル環境におけるステップ単位の害(harm)ラベルを含むPhone-Harmベンチマークも導入し、実験結果として、安全性・有用性(helpfulness)・中断(interruption)のトレードオフが改善されることを報告している。コードとベンチマークはオンラインで公開されている。




