敵対的な環境がエージェンティックAIを誤誘導する仕組みは？

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

ツール統合型のエージェンティックAIは、外部ツールの出力を根拠として信頼する前提があるため、ツール出力の欺瞞を見抜けるか（懐疑性）を評価しないと誤誘導され得ます。
本研究は、Adversarial Environmental Injection（AEI）という脅威モデルを提案し、攻撃者がツールの出力を汚染してエージェントの周囲に“偽の世界”を構築し、誤信を誘発する状況を定式化します。
AEIへの対策として、Model Context Protocol（MCP）に対応したPOTEMKINを提示し、堅牢性テストをプラグアンドプレイで行えるようにします。
攻撃面を「Illusion（幅の攻撃）」と「Maze（深さの攻撃）」の2つに整理し、幻惑（検索汚染による認識の逸脱）と構造トラップ（無限ループ等による政策崩壊）が別系統の脆弱性であることを示します。
5つのフロンティアエージェントに対して11,000回超の実験を行った結果、片方の攻撃への耐性が必ずしももう片方への耐性にならず、エピステミックな頑健性とナビゲーション（方策）頑健性が別の能力であることが明確になりました。

Dev.to

Dev.to

Dev.to

Dev.to

The Verge