一度毒を入れれば、永遠に悪用:環境注入型メモリ汚染攻撃によるWebエージェントへの攻撃

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、タスクをまたいだパーソナライズに用いられるLLMベースのWebエージェントのメモリが、従来の「直接的なメモリ改ざん」を前提としない持続的かつセッションをまたぐ攻撃面を生み出すと主張している。
  • それに対し、eTAMP(Environment-injected Trajectory-based Agent Memory Poisoning)を提案し、攻撃者が環境観測のみ(例:細工されたWebページ)によって、メモリへの直接アクセスなしにエージェントの保存メモリを汚染できることを示す。
  • この攻撃により、セッションをまたぐ・サイトをまたぐ侵害が可能になり、汚染が将来のタスク中に黙って有効化されるため、権限ベースの防御を回避できる。
  • (ビジュアル)WebArenaでの実験では、GPT-5-miniで最大32.5%、GPT-5.2で23.4%、GPT-OSS-120Bで19.5%という実質的な攻撃成功率が報告されており、この脅威が机上の理論にとどまらず現実的であることを示している。
  • 重要な要因は「Frustration Exploitation(フラストレーションの悪用)」であり、エージェントのストレス(クリックの取りこぼし/文字列の崩れ)によって脆弱性が最大8倍に高まる。また著者らは、より強力なモデルが必ずしもより安全とは限らないことを見出している。

要旨: メモリは、LLMベースのWebエージェントをパーソナライズし強力にする一方で、悪用可能にもします。過去のやり取りを保存して将来のタスクをパーソナライズすることで、エージェントは意図せずに、Webサイトとセッションをまたいで持続する攻撃対象領域(アタックサーフェス)を作り出します。既存のセキュリティ研究では、メモリに関する攻撃者モデルとして、攻撃者がメモリ保管領域へ直接注入したり、利用者間で共有されたメモリを悪用できることが前提とされてきました。しかし本論文では、より現実的な脅威モデルとして、環境の観測だけによる汚染(contamination)を提示します。私たちは、環境注入型の軌跡ベース・エージェント・メモリ汚染(Environment-injected Trajectory-based Agent Memory Poisoning, eTAMP)を導入します。これは、直接的なメモリへのアクセスを必要とせずに、セッション間・サイト間の侵害を達成する最初の攻撃です。単一の汚染された観測(例:細工された製品ページを閲覧すること)によって、エージェントのメモリが静かに汚染され、その後、異なるWebサイト上での将来のタスクの際に作動し、許可(permission)ベースの防御をすり抜けます。 (Visual)WebArenaに対する実験の結果、2つの重要な知見が得られました。第一に、eTAMPは実質的な攻撃成功率を達成します。GPT-5-miniで最大32.5%、GPT-5.2で23.4%、GPT-OSS-120Bで19.5%です。第二に、フラストレーション悪用(Frustration Exploitation)を発見しました。環境ストレス下にあるエージェントは、劇的に攻撃に対する脆弱性が高まります。例えば、クリックが落ちる、または文字が判読不能に化ける状況で、ASRが最大8倍まで増加します。注目すべき点として、より高能力なモデルほど安全とは限りません。GPT-5.2は、タスク性能が優れているにもかかわらず、実質的な脆弱性を示します。OpenClaw、ChatGPT Atlas、Perplexity CometのようなAIブラウザの台頭により、私たちの結果は、環境注入型メモリ汚染に対する防御の緊急性を強調しています。