オフラインRLHFに対する効率的な嗜好ポイズニング攻撃

arXiv stat.ML / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、事前に収集した嗜好データセットで学習するオフラインRLHFパイプライン（log-linear DPO）に対して、嗜好ポイズニング（ラベル反転攻撃）がどう成立し得るかを調査する。
1つの嗜好ラベルを反転すると、DPOの勾配がパラメータに依存しない形でシフトすることを示し、この性質を用いて標的型ポイズニング問題を構造化された二値スパース近似問題へ言い換える。
提案手法として、BAL-AとBMP-Aの2つの攻撃アルゴリズムを示し、いずれも二値の反転選択制約のもとで最小反転目的（や反転数の上限）を回復することを狙う。
理論的には、回復保証に加えて、K回反転までの予算に対する頑健性（不可能性）証明も与える。
合成辞書とStanford Human Preferencesデータセットでの実験により理論が検証され、攻撃成功の可否を左右するのが辞書の幾何学であることが示される。

要旨: 人間のフィードバック（RLHF）からのオフライン強化学習のパイプライン、たとえば Direct Preference Optimization（DPO）は、事前に収集された嗜好データセットで学習するため、嗜好ポイズニング攻撃に対して脆弱である。本研究では、対数線形DPOに対するラベル反転攻撃を扱う。まず、1つの嗜好ラベルを反転させることにより、DPO勾配にパラメータ非依存のシフトが生じることを示す。この重要な性質を用いて、標的とされたポイズニング問題を、構造化された二値・疎近似問題へと変換できる。この問題を解くために、2つの攻撃手法を開発する：Binary-Aware Lattice Attack（BAL-A）と Binary Matching Pursuit Attack（BMP-A）。BAL-Aは、二値反転選択問題を二値に配慮した格子へ埋め込み、Lenstra-Lenstra-Lov\'asz（LLL）縮約とバビの最近傍平面アルゴリズムを適用する。二値係数を強制し、最小反転（minimum-flip）の目的を復元するための十分条件を提示する。BMP-Aは、正規化されていない勾配辞書に対して二値マッチング追跡を適応し、コヒーレンス（凝集性）に基づく復元保証と、 $K$ 回反転予算に対する頑健性（不可能性）証明書をもたらす。合成辞書およびStanford Human Preferencesデータセットでの実験により理論が検証され、辞書の幾何学が攻撃の成功をどのように左右するかが示される。