GroupGuard: マルチエージェントシステムにおける協調的攻撃のモデリングと防御のフレームワーク

arXiv cs.AI / 2026/3/17

📰 ニュースModels & Research

要点

  • 著者らは、AIエージェントによって動作するマルチエージェントシステムにおける協調的な攻撃者を検出・隔離することを目的とした、学習を必要としない防御フレームワークGroupGuardを提案する。
  • 彼らは、複数のエージェントが社会的に協調してシステムを誤導するグループ協調攻撃を形式化し、グラフベースの監視、ハニーポット誘引機構、構造的剪定を組み込んだ多層防御としてGroupGuardを提示する。
  • 5つのデータセットと4つのトポロジーにおいて、グループ協調攻撃は個別攻撃と比較して攻撃成功率を最大で15%ポイント引き上げた。GroupGuardは検出精度を最大88%に達成し、協調性能を回復させる。
  • 本フレームワークは協働AIの安全性を確保するための頑健なアプローチを提供し、マルチエージェント展開における安全性への潜在的影響を示唆する。

要約: 大規模言語モデルに基づくエージェントは協調作業において大きな潜在能力を示しますが、その相互作用はセキュリティ上の脆弱性も生み出します。本文では、複数のエージェントが社会学的戦略を用いてシステムを誤導する高度に破壊的な脅威である「グループ共謀攻撃」を提案・モデル化します。 この課題に対処するため、トレーニング不要の防御フレームワークGroupGuardを導入します。これは連続的なグラフベースの監視、アクティブなハニーポット誘引、構造的剪定を含む多層防御戦略を用いて、共謀的エージェントを特定し分離します。5つのデータセットと4つのトポロジーにわたる実験結果は、個別攻撃と比較してグループ共謀攻撃が攻撃成功率を最大で15%増加させることを示しています。GroupGuardは一貫して高い検知精度(最大88%)を達成し、協調パフォーマンスを効果的に回復させ、マルチエージェントシステムの安全性を確保する堅牢なソリューションを提供します。