忘却専用の方向を深さに応じて除去する「クラス忘却アンラーニング」：深さ認識型プロジェクションによる手法DAMP

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、既存のクラス忘却（class unlearning）手法が真の忘却を達成していない可能性があることを指摘しています。忘却クラスの情報が内部表現に残ったり、忘却の見かけが表現の除去ではなく分類器ヘッドの抑制によって生じたりし得るためです。
著者らは、従来手法が選択性を十分に発揮できない（あるいは負の選択性になる）こと、深い表現層で忘却クラスの構造が保たれてしまうこと、あるいは最終層のバイアス変化に強く依存することが多いと述べています。
提案手法DAMP（Depth-Aware Modulation by Projection）は、勾配ベースの最適化ではなく、射影による“重み外科手術（weight-surgery）”で忘却固有の方向を一度で取り除く、ワンショットかつ閉形式の手法です。
DAMPは各段でクラス・プロトタイプを計算し、保持クラスのプロトタイプに対する残差として忘却方向を抽出したうえで、下流側の感度を落とすように射影ベースの更新を行います。
MNIST、CIFAR-10/100、Tiny ImageNetで（CNNとトランスフォーマを含め）比較した結果、DAMPは全再学習（ゴールドスタンダード）により近い挙動を示し、選択的忘却を改善しつつ保持クラスの性能をより良く維持し、深い層の残留する忘却構造も抑えられることが示されています。

概要: 機械アンラーニングは、最初から再学習するコストをかけずに、学習済みモデルから特定の知識を取り除くことを目指します。しかし、クラス・アンラーニングにおいては、忘却クラスでの精度を下げることが、必ずしも真の忘却を意味しません。忘却された情報は内部表現に符号化されたまま残り得て、表面的な忘却は、表現の除去ではなく分類器ヘッドの抑制によって生じる可能性があります。私たちは、既存のクラス・アンラーニング手法がしばしば弱い、または負の選択性を示し、深い表現において忘却クラスの構造を保持していたり、最終層のバイアスのシフトに強く依存していたりすることを示します。次に、DAMP（Depth-Aware Modulation by Projection）を提案します。これはワンショットの閉形式（クローズドフォーム）による重み手術手法であり、勾配ベースの最適化を用いることなく、事前学習済みネットワークから忘却に固有の方向性を取り除きます。各段階でDAMPは、次に学習可能な演算子の入力空間においてクラス・プロトタイプを計算し、保持クラスのプロトタイプに対する残差として忘却方向を抽出し、投影ベースの更新を適用して、その方向性への下流の感度を低減します。有用性を維持するために、DAMPはプローブの分離可能性に基づくパラメータ不要の深さ対応スケーリング則を用い、初期層ではより小さな修正を行い、より深い層ではより大きな修正を行います。この手法は、低ランク部分空間の除去を通じて、多クラス忘却へ自然に拡張できます。MNIST、CIFAR-10、CIFAR-100、Tiny ImageNetにおいて、また畳み込みおよびトランスフォーマーの両方のアーキテクチャにおいて、DAMPは先行手法のいくつかよりも再学習のゴールドスタンダードにより近い挙動を示し、選択的忘却を改善しつつ、保持クラスの性能をより良く維持し、深い層における残存する忘却クラス構造を低減します。