ランク相関を用いたLLM学習データにおける非メンバーシップの検出
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 研究は、LLMの学習に使われたかどうか(membership)とは別の課題として、「特定データセットが学習に使われていないこと(non-membership)」を検証する手法を扱っています。
- 提案手法PRISMは、モデルのロジットに対する灰色ボックス(grey-box)アクセスのみで、正規化トークン対数確率の順位相関の高低を手がかりに非メンバーシップを検出します。
- 新規性の核となる観察として、未学習のデータセットについては2モデル間で正規化トークン対数確率の順位相関が高くなる一方、片方が当該データで学習済みの場合は相関が変化する点を利用しています。
- 実験では、テストした全データセットに対してPRISMが学習不使用(非メンバーシップ)を安定して棄却でき、かつ誤検知を避けられることを示しています。