テキストから画像への拡散モデルに対する予測勾配アンラーニング：概念リバイバル攻撃への防御

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストから画像への拡散モデルにおける機械アンラーニングを扱い、望ましくない概念の除去を再学習コストを抑えつつ実現することを目的としています。
既存手法の重要な弱点として、消された概念が下流データでのファインチューニング後に「復活」することが指摘されており、その下流データが無関係であっても起こり得ると述べています。
著者らは Projected Gradient Unlearning（PGU）を拡散領域に適応し、保持する概念の活性から Core Gradient Space（CGS）を構築したうえで、勾配更新を直交補空間へ射影して消去が覆らないようにします。
既存のアンラーニング手法（ESD、UCE、Receler）の上に適用すると、PGUはスタイル概念のリバイバルを解消し、オブジェクト概念ではリバイバルを大幅に遅らせます（Meta-Unlearningの約2時間に対して約6分）。
PGUとMeta-Unlearningは相補的であり、保持概念の選択はセマンティックなまとまりではなく視覚的特徴の類似性に基づくべきだと提案しています。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA