私は著者です。リポジトリは以下です: https://github.com/aminrj-labs/mcp-attack-labs/tree/main/lab...
このラボは LM Studio + Qwen2.5-7B-Instruct (Q4_K_M) + ChromaDB のみで実行され、クラウドAPIもGPUも不要、APIキーも不要です。
ゼロから汚染が成功するまでの手順: git clone、make setup、make attack1。約10分。
最初に挙げておくべき2点:
- 95%の成功率は5文書のコーパスに対するものです(攻撃者にとっての最良ケース)。成熟したコレクションでは、取得を支配するには比例してより多くの汚染文書が必要になります — ただし仕組みは同じです。
- 取り込み時の埋め込み異常検知は最大の驚きでした: 95% → 20% の単独コントロールとして、3つの生成フェーズ防御を合わせたものより優れていました。これはあなたのパイプラインがすでに生成する埋め込み上で実行されます — 追加のモデルは不要です。
5つの層をすべて組み合わせても、残差は10%です。
方法論、PoisonedRAGの比較、またはおかしい点があれば喜んで議論します。
コメントURL: https://news.ycombinator.com/item?id=47350407
ポイント: 119
コメント数: 46