AI Navigate

セマンティック・カメレオン:RAGシステムにおけるコーパス依存のポイズニング攻撃と防御

arXiv cs.AI / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は Retrieval-Augmented Generation (RAG) システムにおける勾配に基づくコーパス汚染攻撃を検討し、攻撃者が検索コーパスを操作してモデル出力を偏らせることができると示している。
  • Greedy Coordinate Gradient によって最適化された二重文書汚染(スリーパー文書とトリガー文書)を導入し、67,941 ドキュメントから成る Security Stack Exchange コーパスを純粋なベクトル検索で対象とした50回の攻撃試行において、共検索率を 38.0%に達成した。
  • BM25とベクトル類似度を組み合わせたハイブリッド検索という単純な防御は、攻撃成功率を大幅に低減し、LLMを変更せずリトリーバーを再訓練せずに38%から0%へと低減する。とはいえ、ペイロードが疎信号と密信号の両方を狙う場合、攻撃者はなお部分的に回避できる可能性がある。
  • GPT-5.3、GPT-4o、Claude Sonnet 4.6、Llama 4、GPT-4o-mini にまたがるモデル間評価では、攻撃成功率が46.7%から93.3%の範囲で変動する。一方、クロスコーパス FEVER 実験では設定を問わず成功率が0%となり、防御は堅牢であるがデータセットとモデルに依存することが示唆される。

要旨: Retrieval-Augmented Generation (RAG) システムは外部知識源を用いて大規模言語モデル(LLMs)を拡張しますが、取得パイプラインを通じて新たな攻撃面を導入します。特に、敵対者は取得コーパスを汚染して推論時に悪意のある文書が優先的に取得されるようにし、モデル出力を標的に操作することを可能にします。我々は現代のRAGパイプラインに対する勾配ガイド付きコーパス汚染攻撃を研究し、基盤となるLLMを変更することを要しない取得層の防御を評価します。
我々はGreedy Coordinate Gradient(GCG)を用いて最適化されたスリーパー文書とトリガー文書からなる二文書汚染攻撃を実装します。Security Stack Exchangeコーパス(67,941文書)に対する50回の攻撃試行の大規模評価では、勾配ガイド付き汚染は純粋なベクトル検索のもとで38.0%の共取得率を達成します。
単純なアーキテクチャ変更、BM25とベクトル類似性を組み合わせたハイブリッド検索がこの攻撃を大幅に緩和することを示します。50回の攻撃すべてにおいて、ハイブリッド検索はモデルの修正やリトリーバーの再訓練を行わずに、勾配ガイド攻撃の成功率を38%から0%へ低減します。攻撃者が疎結合と密結合の両方の取得信号に対してペイロードを共同最適化する場合、ハイブリッド取得は部分的に回避可能となり、20-44%の成功を達成しますが、ベクトルのみの取得と比較して攻撃の難易度は依然として大幅に高くなります。
GPT-5.3、GPT-4o、Claude Sonnet 4.6、Llama 4、GPT-4o-mini の5つのLLMファミリーを横断して評価した結果、攻撃の成功率は46.7%から93.3%の範囲を示します。FEVER Wikipediaデータセット(25件の攻撃)に対するコーパス間評価は、すべての取得構成で攻撃成功0%を示します。