G-Drift MIA：LLMにおける勾配誘起の特徴ドリフトによるメンバーシップ推論

arXiv cs.LG / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、LLMに対するホワイトボックスのメンバーシップ推論攻撃「G-Drift MIA」を提案し、内部表現に測定可能な「特徴ドリフト（feature drift）」を誘発するために、単一の標的勾配上昇ステップを用いる。
出力の確信度や損失／パープレキシティに主として依存するのではなく、ロジット、隠れ層の活性、固定された特徴方向への射影における表現変化を比較して、メンバー／非メンバー判定用の軽量なロジスティック分類器を学習する。
複数のトランスフォーマー型LLMと、現実的なベンチマーク由来のデータセットに対する実験により、G-Driftは、従来の確信度・パープレキシティ・参照ベースのMIAよりも大幅に高性能であることが示される。これら従来手法は、学習サンプルとクエリサンプルが同一分布から得られる場合、しばしばランダムに近い性能にとどまる。
著者らは機構的な説明も提示している。すなわち、記憶された学習サンプルは、非メンバーよりも小さく、かつより構造化された特徴ドリフトを示す。これは、勾配の幾何学、表現の安定性、そして記憶化（memorization）を結びつけている。
全体として、制御された小規模な勾配介入は、特定のデータ点が学習に含まれたかどうかに関連するLLMのプライバシーリスクを評価するための有効な監査手法として位置づけられる。