RAGシステムにおける文書汚染: 攻撃者はAIの情報源をどのように汚染するか

Hacker News / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

このラボは、LM Studio、Qwen2.5-7B-Instruct、ChromaDB を使用して、検索強化生成（RAG）システムに対する文書汚染攻撃を実演します。セットアップは約10分程度で、クラウドAPIやGPUは不要です。

このラボは LM Studio + Qwen2.5-7B-Instruct (Q4_K_M) + ChromaDB のみで実行され、クラウドAPIもGPUも不要、APIキーも不要です。

ゼロから汚染が成功するまでの手順: git clone、make setup、make attack1。約10分。

最初に挙げておくべき2点:

- 95%の成功率は5文書のコーパスに対するものです（攻撃者にとっての最良ケース）。成熟したコレクションでは、取得を支配するには比例してより多くの汚染文書が必要になります — ただし仕組みは同じです。

- 取り込み時の埋め込み異常検知は最大の驚きでした: 95% → 20% の単独コントロールとして、3つの生成フェーズ防御を合わせたものより優れていました。これはあなたのパイプラインがすでに生成する埋め込み上で実行されます — 追加のモデルは不要です。

5つの層をすべて組み合わせても、残差は10%です。

方法論、PoisonedRAGの比較、またはおかしい点があれば喜んで議論します。

ポイント: 119

コメント数: 46

Publickey

Publickey

Qiita

Dev.to

Dev.to