デスクトップGUIエージェントにおけるUI状態不整合：コンピューター利用型エージェントへのTOCTOU攻撃に対する形式化と防御

arXiv cs.AI / 2026/4/22

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

スクリーンショットとクリックのループに依存するデスクトップGUIエージェントは、観測から行動までのギャップにより、攻撃者が悪用できるTOCTOU型の脆弱性ウィンドウを生み出します。
本論文では問題を「視覚的原子性違反」として形式化し、通知オーバーレイのハイジャック、ウィンドウのフォーカス操作、Web DOMインジェクションの3つの攻撃プリミティブを示します。
ウィンドウのフォーカス操作では、観測時に視覚的な証拠が残らないままエージェントの行動を100%の成功率でリダイレクトできることが示されます。
提案されるPre-execution UI State Verification（PUSV）は、各アクション実行の直前にUI状態を再確認し、ターゲット周辺の画素レベルSSIM、スクリーンショット差分、X Windowスナップショット差分という層構造の検証を行います。
PUSVは180件の敵対試験で100%のアクション遮断を達成し、誤検知ゼロかつ0.1秒未満のオーバーヘッドを示しますが、DOMインジェクション攻撃には盲点があることも明らかになり、OS＋DOMのより多層的な防御が必要だと示唆されます。

Abstract

スクリーンショットとクリックのループによってデスクトップコンピュータを制御するGUIエージェントは、新たなクラスの脆弱性をもたらします。すなわち、（実OSWorldワークロードにおいて平均6.51秒の）観測から行動までのギャップは、非特権攻撃者がUI状態を操作し得るTime-Of-Check, Time-Of-Use（TOCTOU）の時間窓を生み出します。私たちはこれを「視覚的原子性違反（Visual Atomicity Violation）」として定式化し、3つの具体的な攻撃プリミティブを特徴づけます：（A）通知オーバーレイの乗っ取り、（B）ウィンドウフォーカス操作、（C）Web DOMインジェクションです。プリミティブBは、Androidのアクション・リバインディングに最も近いデスクトップ上の同等物であり、観測時に視覚的な証拠がゼロのまま、100%のアクション再誘導成功率を達成します。私たちは、各アクションのディスパッチ直前にUI状態を再検証する軽量な3層防御であるPre-execution UI State Verification（PUSV）を提案します。これは、クリック対象のマスク付きピクセルSSIM（L1）、グローバルなスクリーンショット差分（L2a）、そしてX Windowのスナップショット差分（L2b）です。PUSVは、180件の敵対的試行（135件：プリミティブA＋45件：プリミティブB）にわたって、誤検知ゼロで、かつオーバーヘッド<0.1秒のまま、100%のアクション・インターセプト率を達成します。プリミティブC（ゼロ視覚フットプリントのDOMインジェクション）に対しては、PUSVは構造的な死角を明らかにします（約0% AIR）。これにより、今後のOS＋DOMによるdefense-in-depth（防御の多層化）アーキテクチャの必要性が示されます。単一のPUSV層だけでは完全なカバレッジは達成できず、異なるプリミティブには異なる検出シグナルが必要です。これにより、多層設計が裏付けられます。