RAGにおける適応的防御オーケストレーション：多ベクトル攻撃に対する「セントリー・ストラテジスト」アーキテクチャ

arXiv cs.AI / 2026/4/25

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、医療や法務などのセンシティブ領域で使われるRAGシステムには、メンバーシップ推論、データポイズニング、意図しないコンテンツ漏えいといった重大なセキュリティリスクがあることを指摘している。
実験では、関連する防御を常時すべて有効化する単純な対策が有用性を大きく損なう可能性が示されており、文脈想起（contextual recall）が40%以上低下することが確認された。これは検索（リトリーバル）の劣化が主な失敗モードだからだ。
そのトレードオフを解決するために、Sentinel-Strategist（ADO）アーキテクチャを提案する。Sentinelが異常な検索挙動を検知した後、Strategistがクエリ文脈に応じて必要な防御のみを選択的に投入する。
3つのベンチマークデータセットと5種類のオーケストレーションモデルで評価した結果、ADOはMBA型のメンバーシップ推論リークをほぼ解消し、完全固定の防御スタックに比べて検索ユーティリティを大きく回復でき、無防御ベースラインに近づいた。またデータポイズニングでは攻撃成功をほぼゼロに抑えつつ、文脈想起を無防御ベースラインの75%以上に回復できたが、頑健性はモデル選択に敏感である。
全体として、クエリに応じて適応的に防御をオーケストレーションすることで、静的防御の重いユーティリティコストを払わずにRAGのセキュリティを大きく改善できることが示唆される。

概要: 生成拡張（RAG）システムは、医療や法務などの機微な領域においてますます導入されており、そこではプライベートで領域固有の知識に依存して動作します。この機能は、メンバーシップ推測（membership inference）、データ汚染（data poisoning）、意図しないコンテンツの漏えいといった、重大なセキュリティ上のリスクをもたらします。単純な対策としては、関連する防御をすべて同時に有効化することが挙げられますが、それを行うと実用性（ユーティリティ）に大きなコストがかかります。実験では、常時オンの防御スタックにより文脈想起（contextual recall）が40%以上低下し、回収（retrieval）の劣化が主要な失敗モードであることが示されました。RAGシステムにおけるこのトレードオフを緩和するために、リスク分析と防御選択のための文脈対応型フレームワークであるSentinel-Strategistアーキテクチャを提案します。Sentinelは異常な回収挙動を検知し、その後Strategistが、クエリの文脈に応じて必要と判断された防御のみを選択的に展開します。3つのベンチマークデータセットと5つのオーケストレーションモデルにまたがって評価したところ、ADOはMBA型のメンバーシップ推測に関する漏えいを完全に排除しつつ、完全に固定的な防御スタックの場合に比べて回収の有用性を大幅に回復し、無防御のベースラインに近づくことが示されました。データ汚染の下では、最も強力なADOのバリアントが攻撃成功をほぼゼロにまで抑え、文脈想起を無防御ベースラインの75%以上に回復しますが、その頑健性はモデル選択に敏感なままでした。これらの結果全体から、クエリを意識した適応的な防御は、RAGシステムにおけるセキュリティと有用性のトレードオフを大幅に低減できることが示されます。