CivicShield:多段(マルチターン)の敵対的攻撃に対して政府向けAIチャットボットを防御するための、クロスドメイン・ディフェンス・イン・デプス・フレームワーク
arXiv cs.AI / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、政府向けLLMチャットボットにおける主要なセキュリティ上の欠陥を特定し、多段の敵対的攻撃が成功率90%を超える可能性があり、単一レイヤのガードレールを一般に回避できることを指摘している。
- 「CivicShield」を提案し、ゼロトラストの能力アクセス制御、入力バリデーション、意味意図フィルタリング、会話状態マシンの不変条件、異常検知、マルチモデルのコンセンサス、段階的な人手によるエスカレーションの7つのレイヤを組み合わせた防御の多層化フレームワークを構築している。
- 著者らは、8種類の多段攻撃ファミリを対象とする形式的な脅威モデルを作成し、政府のコンプライアンス要件に対応するために、CivicShieldをNIST SP 800-53の14のコントロールファミリにマッピングしている。
- HarmBench、JailbreakBench、XSTest などのベンチマークを用いて1,436件のシミュレーションシナリオを評価した結果、検知の合算で72.9%を達成し、効果的な誤検知率は2.9%であり、クレッシェンドおよびスロードリフト型の多段攻撃については検知率100%を維持している。
- 独立したベンチマーク比較では、著者が生成したシナリオよりも実データセットに対して性能が低下することが示されており、実運用に向けて独立検証された評価が必要であることを補強している。




