ランク相関を用いたLLM学習データにおける非メンバーシップの検出

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 研究は、LLMの学習に使われたかどうか(membership)とは別の課題として、「特定データセットが学習に使われていないこと(non-membership)」を検証する手法を扱っています。
  • 提案手法PRISMは、モデルのロジットに対する灰色ボックス(grey-box)アクセスのみで、正規化トークン対数確率の順位相関の高低を手がかりに非メンバーシップを検出します。
  • 新規性の核となる観察として、未学習のデータセットについては2モデル間で正規化トークン対数確率の順位相関が高くなる一方、片方が当該データで学習済みの場合は相関が変化する点を利用しています。
  • 実験では、テストした全データセットに対してPRISMが学習不使用(非メンバーシップ)を安定して棄却でき、かつ誤検知を避けられることを示しています。

ランク相関を用いたLLM学習データにおける非メンバーシップの検出 | AI Navigate