明確な拒否の先へ:検索拡張生成(RAG)に対するソフト失敗攻撃

arXiv cs.AI / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のRAG向け妨害攻撃が主に明確な拒否やサービス妨害(DoS)を引き起こす点を挙げ、その代わりに「ソフト失敗」という、流暢なまま情報として役に立たない応答を生成させる微妙な可用性脅威を定式化しています。
  • そのための自動ブラックボックス攻撃手法として、DEJA(Deceptive Evolutionary Jamming Attack)を提案し、安全に配慮した挙動を悪用してソフト失敗を誘発するための敵対的文書を生成します。
  • DEJAは、LLMベースのAnswer Utility Score(AUS)でガイドしながら進化的最適化を行い、回答の確実性を下げつつ検索の成功率を維持します。
  • 複数のRAG構成とベンチマークデータセットにわたる実験で、DEJAは高いソフト失敗成功率(SASR > 79%)を達成しつつ、ハード失敗率は低く抑え(< 15%)、従来攻撃を上回る結果を示します。
  • 生成される敵対的文書はステルス性を重視しており、パープレキシティに基づく検出を回避し、質問の言い換えにも耐え、モデルファミリー間でも転移し得て、再ターゲティングなしでプロプライエタリなシステムにも効くと報告されています。

要旨: リトリーバル拡張生成(RAG)システムに対する既存の妨害(ジャミング)攻撃は、典型的に明示的な拒否やサービス拒否(DoS)挙動を誘発し、それらは目立っており、検知も容易です。本研究では、より微妙な可用性に対する脅威である soft failure(ソフト故障)を形式化します。これは、明白な失敗ではなく、流暢で首尾一貫したものの非情報的な応答を誘発することで、システムの有用性を低下させるものです。私たちは、Deceptive Evolutionary Jamming Attack(DEJA)を提案します。DEJAは、そのようなソフト故障を引き起こすための敵対的文書を生成する、自動化されたブラックボックス攻撃フレームワークです。ここでは、大規模言語モデルの安全性に整合した挙動を悪用します。DEJAは、細粒度の Answer Utility Score(AUS)により導かれる進化的最適化プロセスを採用し、このAUSはLLMベースの評価器によって計算されます。これにより、検索の成功率を高く保ったまま、回答の確実性を体系的に低下させます。複数のRAG構成およびベンチマークデータセットにわたる大規模な実験の結果、DEJAは一貫して低有用性のソフト故障へ応答を導くことが示されました。SASRは79\%超を達成しつつ、ハード故障率は15\%未満に抑え、従来の攻撃を大幅に上回ります。生成される敵対的文書は高い秘匿性を備えており、パープレキシティ(困惑度)ベースの検知を回避し、クエリの言い換えにも耐性を示します。また、再標的化(リトレゲッティング)を行わずに、モデルファミリー間でプロプライエタリ(商用)システムへも転移します。