要旨: 大規模言語モデル(LLM)は学習のために大量のデータを利用しており、その一部は著作権で保護されたソースから来ている可能性があります。メンバーシップ推論攻撃(MIA)は、それらの文書を検出し、それがLLMの学習コーパスに含まれているかどうかを特定することを目的としています。ブラックボックスMIAは大量のデータ操作を要するため、その比較はしばしば困難になります。本研究では、ブラックボックスの仮定のもとでの最先端(SOTA)MIAを調査し、SOTAのLLMにおいてそれらがメンバーシップを確実に検出できるかどうかを判断するために、統一された一連のデータセットを用いて相互に比較します。さらに、ブラックボックスMIAのための一つの可能なアプローチを示すために「親しみ度ランキング(Familiarity Ranking)」という新しい手法を開発し、それによってLLMが自身の推論をより理解できるよう、表現の自由度を高められるようにしました。その結果、いずれの手法もLLMにおけるメンバーシップを確実に検出することはできないことが示されました。これは、複数のLLMにわたるすべての手法でAUC-ROCが約0.5であることによって示されています。より高度なLLMにおけるTPRおよびFPRの高さは、推論能力および汎化能力の高さを示しており、ブラックボックスMIAを用いてLLMにおけるメンバーシップを検出することの難しさを際立たせています。
大規模言語モデルにおけるデータ汚染の検出
arXiv cs.AI / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Membership Inference Attack(MIA)を用いて、大規模言語モデル(LLM)の学習データに特定の文書(著作権で保護された資料など)が含まれていたかどうかを推定できる可能性を検討します。
- 著者らはブラックボックス前提の下で、最先端のブラックボックス型MIA手法を統一的なデータセット設定で比較し、学習メンバーシップ検出が確実に行える手法があるかを評価します。
- 「Familiarity Ranking」という新しい手法を提案し、ブラックボックスMIAの一つのアプローチ例として、推論理解のためにLLMの表現をより自由にすることを意図しています。
- 複数のLLMに対して、評価されたどの手法もメンバーシップを信頼性高く検出できず、AUC-ROCは約0.5とほぼランダムに近い性能でした。
- より高度なLLMほどTPRとFPRが高いことは、推論力と汎化能力の向上を示唆し、ブラックボックス型のメンバーシップ検出を一層難しくしていることを示します。



