ランク相関を用いたLLM学習データにおける非メンバーシップの検出

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

研究は、LLMの学習に使われたかどうか（membership）とは別の課題として、「特定データセットが学習に使われていないこと（non-membership）」を検証する手法を扱っています。
提案手法PRISMは、モデルのロジットに対する灰色ボックス（grey-box）アクセスのみで、正規化トークン対数確率の順位相関の高低を手がかりに非メンバーシップを検出します。
新規性の核となる観察として、未学習のデータセットについては2モデル間で正規化トークン対数確率の順位相関が高くなる一方、片方が当該データで学習済みの場合は相関が変化する点を利用しています。
実験では、テストした全データセットに対してPRISMが学習不使用（非メンバーシップ）を安定して棄却でき、かつ誤検知を避けられることを示しています。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH