ProGRank:Probe-Gradientによる再ランキングで、コーパス汚染からDense-Retriever RAGを防御する
arXiv cs.AI / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ProGRankは、Top-Kの検索結果に標的化されたパッセージを注入するコーパス汚染攻撃から、dense-retriever RAGシステムを防御するためのトレーニング不要のレトリーバ側ディフェンスである。
- 各クエリ–パッセージの組を、穏やかなランダム擾乱を用いてストレステストし、レトリーバのパラメータの小さく固定された部分集合からプローブ勾配を導出して、2つの不安定性シグナル(表現の一貫性と分散リスク)を算出する。
- この手法は、スコアゲート付きの再ランキング段階でこれらのシグナルを用い、元のパッセージ内容を変えずに頑健性の向上を目指す。
- 複数のデータセット、複数のdense-retrieverバックボーン、およびいくつかの代表的な汚染攻撃に関する実験により、検索段階およびエンドツーエンドのRAG設定の両方で、より強い防御性能が示されており、頑健性と有用性のトレードオフも良好である。
- ProGRankは適応的な回避攻撃に対しても競争力があり、配備されたレトリーバにアクセスできない場合にはサロゲートベースの変種も提供する。