ミニマックス最適性を備えた効率的な機械アンラーニング
arXiv stat.ML / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、特定のデータ部分集合を削除することを目的とし、完全なモデル再学習に伴うコストをかけずに行う機械アンラーニングのための統計的枠組みを提案する。これは、GDPRスタイルのコンプライアンスやバイアス/汚染(corruption)の低減によって動機づけられる。
- 一般的な損失関数に対する理論的保証を与え、二乗損失の場合には、Unlearning Least Squares(ULS)と呼ばれる手法を開発する。
- 著者らは、残されたデータに対するパラメータ推定について、事前学習済み推定器へのアクセス、忘却用サンプル、残りデータの小さなサブサンプルのみが許される設定のもとで、ミニマックス最適性を証明する。
- 推定誤差は「オラクル項」と、忘却すべきデータの割合と忘却モデルのバイアスによって駆動される「アンラーニングコスト」に分解されることを示す。
- 実験および実データへの適用結果から、本手法は大量の再学習に近い性能を達成しつつ、必要となるデータアクセス量を大幅に削減できることが示される。


