Mitigating Privacy Risk via Forget Set-Free Unlearning

arXiv cs.LG / 4/14/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、機械学習モデルの学習データ(特に個人情報を含む可能性のあるデータ)を巡るプライバシーリスクに対し、学習済みモデルから特定データの影響を効率的に除去する「機械アンラーニング」を扱う。
  • 既存手法は「忘却セット(忘れたいデータ)」へ直接アクセスを要することが多く、企業が忘却対象データを保持し続ける必要がある点がリスクになるが、本研究は忘却セットに明示的にアクセスせずに行う「部分的ブラインド(partially-blind)アンラーニング」を提案する。
  • その実運用の枠組みとして、Reloadを提案し、勾配最適化と構造化された重みスパーシフィケーションを組み合わせて部分ブラインド不忘却を実現する。
  • 実験では、Reloadがスクラッチ再学習に近い挙動で効率的にアンラーニングでき、忘却セット依存の手法を上回り、Llama2-7Bでは実データ規模に対する削除量と実行時間について有望な数値を示す。

Abstract

Training machine learning models requires the storage of large datasets, which often contain sensitive or private data. Storing data is associated with a number of potential risks which increase over time, such as database breaches and malicious adversaries. Machine unlearning is the study of methods to efficiently remove the influence of training data subsets from previously-trained models. Existing unlearning methods typically require direct access to the "forget set" -- the data to be forgotten-and organisations must retain this data for unlearning rather than deleting it immediately upon request, increasing risks associated with the forget set. We introduce partially-blind unlearning -- utilizing auxiliary information to unlearn without explicit access to the forget set. We also propose a practical framework Reload, a partially-blind method based on gradient optimization and structured weight sparsification to operationalize partially-blind unlearning. We show that Reload efficiently unlearns, approximating models retrained from scratch, and outperforms several forget set-dependent approaches. On language models, Reload unlearns entities using <0.025% of the retain set and <7% of model weights in <8 minutes on Llama2-7B. In the corrective case, Reload achieves unlearning even when only 10% of corrupted data is identified.