プロンプト不能なものを忘れる: ディフュージョンモデルにおけるプロンプト不要のインスタンスアンラーニング
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストプロンプトで特定できない望ましくない出力を忘却するための、ディフュージョンモデル向けプロンプト不要のインスタンスアンラーニングを提案する。例えば顔や文化的に誤解される描写など。
- 代替ベースのアンラーニング手法を提案しており、画像編集、タイムステップを意識した重み付け、勾配手術を組み合わせて、ターゲット出力を忘却する方向にモデルを導くとともに全体的な整合性を保持する。
- 条件付き(Stable Diffusion 3)および無条件(DDPM-CelebA)拡散モデルでの実験は、本手法がプロンプト不可の出力を唯一忘却し、プロンプトベースおよびプロンプトフリーベースラインを上回ることを示す。
- 本研究は、拡散モデル提供者がプライバシー保護と倫理的遵守を高めるための実用的なホットフィックス手法を提案している。
機械学習における忘却は、訓練済みモデルから特定の出力を削除することを指し、概念レベルで特定の有名人の出現をすべて忘却することや、テキストプロンプトを介したコンテンツのフィルタリングといった目的が含まれる。しかし、多くの望ましくない出力、たとえば個人の顔や文化的または事実的に誤解される生成物は、テキストプロンプトでしばしば指定することが難しい。「望ましくないがプロンプトでは指示できない出力」という未開拓の設定に対して、他を保ちながら対象出力を選択的に忘却することを目的とするインスタンスアンラーニングを提案する。これを達成するために、画像編集、タイムステップを意識した重み付け、勾配手術を活用して、訓練済みの拡散モデルを特定の出力を忘却する方向へ導く効果的な代理ベースのアンラーニング手法を導入する。条件付き(Stable Diffusion 3)および無条件(DDPM-CelebA)拡散モデルでの実験は、我々のプロンプトフリーメソッドが、プロンプトベースおよびプロンプトフリーベースラインとは異なり、プロンプト不可能な出力(顔や文化的に不正確な描写)を一意に忘却し、整合性を保持することを示している。我々の提案手法は、拡散モデル提供者がプライバシー保護と倫理的遵守を確保するための実用的なホットフィックスとして機能するだろう。




