G-Drift MIA:LLMにおける勾配誘起の特徴ドリフトによるメンバーシップ推論
arXiv cs.LG / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMに対するホワイトボックスのメンバーシップ推論攻撃「G-Drift MIA」を提案し、内部表現に測定可能な「特徴ドリフト(feature drift)」を誘発するために、単一の標的勾配上昇ステップを用いる。
- 出力の確信度や損失/パープレキシティに主として依存するのではなく、ロジット、隠れ層の活性、固定された特徴方向への射影における表現変化を比較して、メンバー/非メンバー判定用の軽量なロジスティック分類器を学習する。
- 複数のトランスフォーマー型LLMと、現実的なベンチマーク由来のデータセットに対する実験により、G-Driftは、従来の確信度・パープレキシティ・参照ベースのMIAよりも大幅に高性能であることが示される。これら従来手法は、学習サンプルとクエリサンプルが同一分布から得られる場合、しばしばランダムに近い性能にとどまる。
- 著者らは機構的な説明も提示している。すなわち、記憶された学習サンプルは、非メンバーよりも小さく、かつより構造化された特徴ドリフトを示す。これは、勾配の幾何学、表現の安定性、そして記憶化(memorization)を結びつけている。
- 全体として、制御された小規模な勾配介入は、特定のデータ点が学習に含まれたかどうかに関連するLLMのプライバシーリスクを評価するための有効な監査手法として位置づけられる。




