LLMにおける忘れられる権利の実運用:政治的にセンシティブな環境でのプライバシーに整合した配備のための軽量な逐次アンラーニング・フレームワーク

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、個人情報や機密の記憶がコンプライアンス上のリスクとなり得る、政治的にセンシティブな状況で配備されるLLMに対してGDPRの忘れられる権利をどのように実運用するかを扱う。
  • 軽量な逐次アンラーニング・フレームワークを提案し、保持と抑制を切り離す。具体的には、良性の能力を安定化させるためにポジティブなファインチューニングを行い、その後、層を限定したネガティブなファインチューニングで指定されたセンシティブなパターンを抑制する。
  • SemEval-2025 LLMアンラーニングのベンチマークに関する実験では、事実性と流暢さは概ね維持しつつ、強力な行動抑制が示される。
  • 結果は、モデルの容量が頑健性に影響することを示しており、プライバシーに整合したアンラーニング中はDistilGPT-2よりもGPT-2の方がより確実に動作した。

要旨: 大規模言語モデル(LLM)は、個人データや機密コンテンツの記憶(memorisation)が、GDPR や「忘れられる権利(Right to be Forgotten)」のような枠組みのもとで規制上の懸念を生じさせる政治的にセンシティブな環境において、ますます導入されるようになっています。このような法的原則を大規模な生成システムへと翻訳する(落とし込む)ことは、重大な技術的課題を伴います。
本稿では、保持(retention)目的と抑制(suppression)目的を明示的に分離する、軽量な逐次アンラーニング(sequential unlearning)フレームワークを提案します。この手法はまず、正のファインチューニングによって良性の能力を安定化させ、その後、一般的な言語能力を維持したまま、指定された機密性の高いパターンを抑制するために、層を限定した負のファインチューニングを適用します。
SemEval-2025 LLM アンラーニングベンチマークでの実験により、事実性の正確さや流暢さへの影響を最小限に抑えつつ、効果的な行動抑制が示されます。GPT-2 は DistilGPT-2 よりも高い頑健性を示し、プライバシー整合(privacy-aligned)な適応におけるモデル容量の役割が強調されます。私たちは、逐次アンラーニングを、政治的に導入された LLM におけるデータ消去(data erasure)要件を運用化するための、実用的かつ再現可能なメカニズムとして位置づけます。