広告

RAGShield:政府の検索拡張生成(RAG)システムにおけるナレッジベース汚染に対する、プロバナンス検証済みの防御を多層化する仕組み

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • RAGナレッジ・パイプラインを保護するために、ソフトウェア供給網チェーンのプロバナンス検証の概念を適用した、5層から成る多層防御フレームワーク「RAGShield」を提案する。

概要: 市民向けサービスのために連邦機関に導入されたRAGシステムは、知識ベース汚染攻撃に対して脆弱です。そこでは、攻撃者が悪意のある文書を注入して出力を操作します。近年の研究では、敵対的な通過(passage)をわずか10件投入するだけで、98.2%の検索成功率が達成できることが示されています。私たちは、RAG知識ベース汚染がソフトウェア供給網攻撃(software supply chain attacks)と構造的に同等であることを観察し、RAG知識パイプラインに対して供給網のプロベナンス(provenance)検証を適用する、5層の防御を前提とした(defense-in-depth)枠組みであるRAGShieldを提案します。RAGShieldは、(1) C2PAに触発された暗号学的文書アテステーションにより、取り込み時に未署名および偽造文書をブロックすること、(2) プロベナンス検証済みの情報源を優先する信頼度付き検索(trust-weighted retrieval)こと、(3) 交差ソース間の矛盾検出を伴う形式的タイント格子(taint lattice)により、プロベナンスが正しくてもインサイダーの脅威を検知すること、(4) 監査可能な引用(auditable citations)を備えたプロベナンスに配慮した生成(provenance-aware generation)であること、(5) 15の統制ファミリにわたるNIST SP 800-53の準拠対応(compliance mapping)であること、の5点を導入します。攻撃文書63件を含む、500通過のNatural Questionsコーパスに対して、5つの敵対者ティア(adversary tier)にわたる200クエリで評価した結果、適応攻撃(95% CI: [0.0%, 1.9%])を含めても攻撃成功率0.0%を達成し、誤検知率も0.0%でした。私たちは率直に、インサイダーによるその場での置換攻撃がASR(攻撃成功率)17.5%に到達し、取り込み時点の防御の本質的な限界を示すことを報告します。交差ソース間の矛盾検出は、プロベナンス検証を完全にすり抜ける、微妙な数値操作攻撃を捕捉します。

広告