デスクトップGUIエージェントにおけるUI状態不整合:コンピューター利用型エージェントへのTOCTOU攻撃に対する形式化と防御

arXiv cs.AI / 2026/4/22

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • スクリーンショットとクリックのループに依存するデスクトップGUIエージェントは、観測から行動までのギャップにより、攻撃者が悪用できるTOCTOU型の脆弱性ウィンドウを生み出します。
  • 本論文では問題を「視覚的原子性違反」として形式化し、通知オーバーレイのハイジャック、ウィンドウのフォーカス操作、Web DOMインジェクションの3つの攻撃プリミティブを示します。
  • ウィンドウのフォーカス操作では、観測時に視覚的な証拠が残らないままエージェントの行動を100%の成功率でリダイレクトできることが示されます。
  • 提案されるPre-execution UI State Verification(PUSV)は、各アクション実行の直前にUI状態を再確認し、ターゲット周辺の画素レベルSSIM、スクリーンショット差分、X Windowスナップショット差分という層構造の検証を行います。
  • PUSVは180件の敵対試験で100%のアクション遮断を達成し、誤検知ゼロかつ0.1秒未満のオーバーヘッドを示しますが、DOMインジェクション攻撃には盲点があることも明らかになり、OS+DOMのより多層的な防御が必要だと示唆されます。

Abstract

スクリーンショットとクリックのループによってデスクトップコンピュータを制御するGUIエージェントは、新たなクラスの脆弱性をもたらします。すなわち、(実OSWorldワークロードにおいて平均6.51秒の)観測から行動までのギャップは、非特権攻撃者がUI状態を操作し得るTime-Of-Check, Time-Of-Use(TOCTOU)の時間窓を生み出します。私たちはこれを「視覚的原子性違反(Visual Atomicity Violation)」として定式化し、3つの具体的な攻撃プリミティブを特徴づけます:(A)通知オーバーレイの乗っ取り、(B)ウィンドウフォーカス操作、(C)Web DOMインジェクションです。プリミティブBは、Androidのアクション・リバインディングに最も近いデスクトップ上の同等物であり、観測時に視覚的な証拠がゼロのまま、100%のアクション再誘導成功率を達成します。私たちは、各アクションのディスパッチ直前にUI状態を再検証する軽量な3層防御であるPre-execution UI State Verification(PUSV)を提案します。これは、クリック対象のマスク付きピクセルSSIM(L1)、グローバルなスクリーンショット差分(L2a)、そしてX Windowのスナップショット差分(L2b)です。PUSVは、180件の敵対的試行(135件:プリミティブA+45件:プリミティブB)にわたって、誤検知ゼロで、かつオーバーヘッド<0.1秒のまま、100%のアクション・インターセプト率を達成します。プリミティブC(ゼロ視覚フットプリントのDOMインジェクション)に対しては、PUSVは構造的な死角を明らかにします(約0% AIR)。これにより、今後のOS+DOMによるdefense-in-depth(防御の多層化)アーキテクチャの必要性が示されます。単一のPUSV層だけでは完全なカバレッジは達成できず、異なるプリミティブには異なる検出シグナルが必要です。これにより、多層設計が裏付けられます。