Detecting Non-Membership in LLM Training Data via Rank Correlations

arXiv cs.CL / 3/25/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 研究は、LLMの学習に使われたかどうか(membership)とは別の課題として、「特定データセットが学習に使われていないこと(non-membership)」を検証する手法を扱っています。
  • 提案手法PRISMは、モデルのロジットに対する灰色ボックス(grey-box)アクセスのみで、正規化トークン対数確率の順位相関の高低を手がかりに非メンバーシップを検出します。
  • 新規性の核となる観察として、未学習のデータセットについては2モデル間で正規化トークン対数確率の順位相関が高くなる一方、片方が当該データで学習済みの場合は相関が変化する点を利用しています。
  • 実験では、テストした全データセットに対してPRISMが学習不使用(非メンバーシップ)を安定して棄却でき、かつ誤検知を避けられることを示しています。

Abstract

As large language models (LLMs) are trained on increasingly vast and opaque text corpora, determining which data contributed to training has become essential for copyright enforcement, compliance auditing, and user trust. While prior work focuses on detecting whether a dataset was used in training (membership inference), the complementary problem -- verifying that a dataset was not used -- has received little attention. We address this gap by introducing PRISM, a test that detects dataset-level non-membership using only grey-box access to model logits. Our key insight is that two models that have not seen a dataset exhibit higher rank correlation in their normalized token log probabilities than when one model has been trained on that data. Using this observation, we construct a correlation-based test that detects non-membership. Empirically, PRISM reliably rules out membership in training data across all datasets tested while avoiding false positives, thus offering a framework for verifying that specific datasets were excluded from LLM training.