要旨: GUIエージェントに関する既存のレッドチーミング研究には重要な限界があります。敵対的摂動は通常ホワイトボックスのアクセスを必要としますが、これは商用システムでは利用できません。一方で、プロンプトインジェクションは、より強力な安全性アライメントによってますます軽減されています。より実用的な脅威モデルの下で頑健性を調べるために、私たちはSemantic-level UI Element Injection(意味レベルのUI要素インジェクション)を提案します。これは、エージェントの視覚的グラウンディングを誤誘導するために、安全にアライメントされた有害でないUI要素をスクリーンショットに重ね合わせるレッドチーミングの設定です。私たちの手法は、モジュール化されたEditor-Overlapper-Victimパイプラインと、複数の候補編集をサンプルする反復的な探索手順を用います。累積的なオーバーレイのうち最良のものを維持し、過去の失敗に基づいて将来のプロンプト戦略を適応させます。5つの被攻撃モデルに対して、最適化された攻撃は、最も強い被攻撃モデルにおけるランダムインジェクションよりも攻撃成功率を最大4.4倍改善します。さらに、あるソースモデルで最適化された要素は、他のターゲットモデルにも効果的に転移され、モデルに依存しない脆弱性が示唆されます。最初の攻撃が成功した後でも、被攻撃者はその後の独立した試行において15%以上の確率で攻撃者が制御する要素をクリックします。これはランダムインジェクションが1%未満であるのに対し、インジェクトされた要素が単なる視覚的な雑音ではなく、持続的なアトラクタとして機能していることを示しています。
GUIエージェントは十分に対策されているのか?セマンティックレベルのUI要素注入による自動的な注意散漫化
arXiv cs.CL / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、GUIエージェントの既存のレッドチーミングが限定的であるのは、しばしばホワイトボックスアクセスに依存しており、商用システムでは現実的ではないためだと論じている。
- Safetyに整合した無害そうなUI要素をスクリーンショットに重ねて配置し、エージェントの視覚的なグラウンディングを誤誘導する「セマンティックレベルのUI要素注入」という新しい脅威モデルを提案する。
- 著者らは、モジュール化されたEditor-Overlapper-Victimパイプラインと、反復的な候補探索戦略を用いることで、テストした最強の被害モデルにおいて、最適化された攻撃がランダム注入と比べて成功率を最大4.4倍まで引き上げられることを見出している。
- この攻撃は転移可能であることが示されている。1つのモデルで最適化された要素が、他の被害モデルでも効果的に機能し、モデルに依存しない脆弱性が示唆される。
- 初回の成功後、注入された要素はアトラクタ(誘引対象)として持続し、後続の試行において被害者がそれをクリックする割合が、ランダム注入の1%未満に対して15%以上となる。これは、持続的なミスアライメントのリスクを示している。


