敵対的な環境がエージェンティックAIを誤誘導する仕組みは?
arXiv cs.AI / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- ツール統合型のエージェンティックAIは、外部ツールの出力を根拠として信頼する前提があるため、ツール出力の欺瞞を見抜けるか(懐疑性)を評価しないと誤誘導され得ます。
- 本研究は、Adversarial Environmental Injection(AEI)という脅威モデルを提案し、攻撃者がツールの出力を汚染してエージェントの周囲に“偽の世界”を構築し、誤信を誘発する状況を定式化します。
- AEIへの対策として、Model Context Protocol(MCP)に対応したPOTEMKINを提示し、堅牢性テストをプラグアンドプレイで行えるようにします。
- 攻撃面を「Illusion(幅の攻撃)」と「Maze(深さの攻撃)」の2つに整理し、幻惑(検索汚染による認識の逸脱)と構造トラップ(無限ループ等による政策崩壊)が別系統の脆弱性であることを示します。
- 5つのフロンティアエージェントに対して11,000回超の実験を行った結果、片方の攻撃への耐性が必ずしももう片方への耐性にならず、エピステミックな頑健性とナビゲーション(方策)頑健性が別の能力であることが明確になりました。



