ACIArena:エージェント・カスケーディング・インジェクションに向けた統一評価

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多エージェントシステムにおける主要なセキュリティリスクとして、エージェント・カスケーディング・インジェクション(ACI)を取り上げる。これは、侵害されたエージェントがエージェント間の信頼を悪用して悪意ある指示を拡散し、システム全体の失敗を引き起こし得るものだ。
  • 論文では、複数の攻撃面(外部入力、エージェントのプロファイル、エージェント間メッセージ)と、複数の攻撃目的(指示のハイジャック、タスクの妨害、情報の持ち出し)を網羅する体系的なテストスイートを備えた、統一的な評価フレームワークであるACIArenaを提案する。
  • ACIArenaは、MAS構築と攻撃・防御モジュールの双方を支える共通仕様およびベンチマークを提供し、6種類の一般的なMAS実装と1,356件のテストケースを対象とする。
  • 著者らは、ネットワークトポロジーのみを根拠に頑健性を評価するのは不十分であり、頑健な振る舞いは意図的な役割設計と制御された相互作用パターンに依存することを明らかにする。
  • また、簡略化した環境で検証された防御策は現実のシナリオへ一般化できない可能性があり、さらに新たな脆弱性を導入し得ることも示し、より包括的な評価の必要性をACIArenaによって動機づける。