大規模言語モデルにおけるデータ汚染の検出

arXiv cs.AI / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Membership Inference Attack(MIA)を用いて、大規模言語モデル(LLM)の学習データに特定の文書(著作権で保護された資料など)が含まれていたかどうかを推定できる可能性を検討します。
  • 著者らはブラックボックス前提の下で、最先端のブラックボックス型MIA手法を統一的なデータセット設定で比較し、学習メンバーシップ検出が確実に行える手法があるかを評価します。
  • 「Familiarity Ranking」という新しい手法を提案し、ブラックボックスMIAの一つのアプローチ例として、推論理解のためにLLMの表現をより自由にすることを意図しています。
  • 複数のLLMに対して、評価されたどの手法もメンバーシップを信頼性高く検出できず、AUC-ROCは約0.5とほぼランダムに近い性能でした。
  • より高度なLLMほどTPRとFPRが高いことは、推論力と汎化能力の向上を示唆し、ブラックボックス型のメンバーシップ検出を一層難しくしていることを示します。

要旨: 大規模言語モデル(LLM)は学習のために大量のデータを利用しており、その一部は著作権で保護されたソースから来ている可能性があります。メンバーシップ推論攻撃(MIA)は、それらの文書を検出し、それがLLMの学習コーパスに含まれているかどうかを特定することを目的としています。ブラックボックスMIAは大量のデータ操作を要するため、その比較はしばしば困難になります。本研究では、ブラックボックスの仮定のもとでの最先端(SOTA)MIAを調査し、SOTAのLLMにおいてそれらがメンバーシップを確実に検出できるかどうかを判断するために、統一された一連のデータセットを用いて相互に比較します。さらに、ブラックボックスMIAのための一つの可能なアプローチを示すために「親しみ度ランキング(Familiarity Ranking)」という新しい手法を開発し、それによってLLMが自身の推論をより理解できるよう、表現の自由度を高められるようにしました。その結果、いずれの手法もLLMにおけるメンバーシップを確実に検出することはできないことが示されました。これは、複数のLLMにわたるすべての手法でAUC-ROCが約0.5であることによって示されています。より高度なLLMにおけるTPRおよびFPRの高さは、推論能力および汎化能力の高さを示しており、ブラックボックスMIAを用いてLLMにおけるメンバーシップを検出することの難しさを際立たせています。