広告

CivicShield:多段(マルチターン)の敵対的攻撃に対して政府向けAIチャットボットを防御するための、クロスドメイン・ディフェンス・イン・デプス・フレームワーク

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、政府向けLLMチャットボットにおける主要なセキュリティ上の欠陥を特定し、多段の敵対的攻撃が成功率90%を超える可能性があり、単一レイヤのガードレールを一般に回避できることを指摘している。
  • 「CivicShield」を提案し、ゼロトラストの能力アクセス制御、入力バリデーション、意味意図フィルタリング、会話状態マシンの不変条件、異常検知、マルチモデルのコンセンサス、段階的な人手によるエスカレーションの7つのレイヤを組み合わせた防御の多層化フレームワークを構築している。
  • 著者らは、8種類の多段攻撃ファミリを対象とする形式的な脅威モデルを作成し、政府のコンプライアンス要件に対応するために、CivicShieldをNIST SP 800-53の14のコントロールファミリにマッピングしている。
  • HarmBench、JailbreakBench、XSTest などのベンチマークを用いて1,436件のシミュレーションシナリオを評価した結果、検知の合算で72.9%を達成し、効果的な誤検知率は2.9%であり、クレッシェンドおよびスロードリフト型の多段攻撃については検知率100%を維持している。
  • 独立したベンチマーク比較では、著者が生成したシナリオよりも実データセットに対して性能が低下することが示されており、実運用に向けて独立検証された評価が必要であることを補強している。

Abstract

政府サービスにおけるLLMベースのチャットボットは、重大なセキュリティ上の欠落に直面している。多ターンの敵対的攻撃は、現行の防御に対して90%以上の成功率を達成し、単層のガードレールも同様の割合で回避される。我々は、政府向けAIチャットボットのためのクロスドメイン・ディフェンスインディープ(多層防御)フレームワークであるCivicShieldを提示する。ネットワークセキュリティ、形式検証、生体免疫システム、航空安全、およびゼロトラスト暗号を取り入れ、CivicShieldは7つの防御層を導入する:(1) 能力ベースのアクセス制御を備えたゼロトラスト基盤、(2) パリムタ入力バリデーション、(3) 意図分類によるセマンティック・ファイアウォール、(4) 安全性不変条件を伴う会話状態マシン、(5) 行動異常検知、(6) 多モデルによるコンセンサス検証、(7) 人間を介した段階的なエスカレーション。8つの多ターン攻撃ファミリーをカバーする形式的脅威モデルを提示し、14のファミリーにまたがってNIST SP 800-53の統制へフレームワークを対応付け、アブレーション分析を用いて評価する。理論分析により、多層防御は単層アプローチに比べて攻撃確率を1〜2桁低減することが示される。HarmBench(416)、JailbreakBench(200)、XSTest(450)を含む1,436のシナリオに対するシミュレーションでは、段階的な応答の後に、72.9%の結合検知 [69.5-76.0% CI] と2.9%の有効な誤検知率を達成し、多ターンのクレッシェンド攻撃およびスロードリフト攻撃の検知を100%維持する。実運用ベンチマークにおける著者作成シナリオに対する率の低下(HarmBenchで71.2% vs 76.7%、JailbreakBenchで47.0% vs 70.0%)は、独立評価の重要性を裏付ける。CivicShieldは、AI安全、政府のコンプライアンス、実運用展開の交差点における未解決のギャップに対処する。

広告
CivicShield:多段(マルチターン)の敵対的攻撃に対して政府向けAIチャットボットを防御するための、クロスドメイン・ディフェンス・イン・デプス・フレームワーク | AI Navigate