数千の概念を消去する:テキストから画像への拡散モデルに向けたスケーラブルで実用的な概念消去

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、テキストから画像(T2I)拡散モデルにおける概念消去のためのスケーラブルな枠組み「Erasing Thousands of Concepts(ETC)」を提案し、数千の概念を消去しつつ生成品質を維持できることを示します。
  • ETCは、Student’s t-distribution Mixture Model(tMM)で概念分布を低ランクでモデル化し、事前に定義したアンカー概念に依存せずに、アフィン最適輸送(affine optimal transport)で標的概念を精密に消去します。
  • MoEベースの「MoEraser」モジュールを学習し、アンカー埋め込みは保持しながら、ターゲット概念の埋め込みを削除することで消去の選択性を高めます。
  • テキスト埋め込みプロジェクタへのノイズ注入とMoEraserの微調整により、モジュール削除のようなホワイトボックス攻撃への耐性を獲得します。
  • 2,000件超の概念と複数の拡散モデルに対する実験で、ETCが大規模概念消去における先行手法よりもスケーラビリティと精度で優れることが報告されています。

要旨: 大規模テキストから画像(T2I)への拡散モデルは目覚ましい視覚的忠実性をもたらしますが、著作権で保護されたものなど好ましくない内容を再現できてしまう能力ゆえに安全上のリスクも伴います。概念消去(concept erasure)は対策戦略として登場してきましたが、既存の手法はスケーラビリティ、精度、頑健性のバランスをうまく取るのが難しく、そのため適用範囲が数百個の概念だけを消去する場合に限られていました。これらの制約に対処するために、我々は、生成品質を維持しつつ数千の概念を消去できるスケーラブルな枠組み「Erasing Thousands of Concepts(ETC)」を提案します。提案手法はまず、Studentのt分布混合モデル(tMM)により低ランクの概念分布をモデル化します。これにより、事前に定義されたアンカー概念を用いることなく、目標となる概念分布の境界を固定(アンカー)することで、他の概念を保持しながら、アフィン(affine)な最適輸送によりターゲット概念のピンポイントな消去を可能にします。次に、アンカー埋め込みを保持したまま、ターゲット埋め込みを除去するMixture-of-Experts(MoE)ベースのモジュール「MoEraser」を学習します。さらに、テキスト埋め込みプロジェクタにノイズを注入し、回復のためにMoEraserを微調整することで、モジュール除去といったホワイトボックス攻撃に対する頑健性を達成します。異種混在するドメインと拡散モデルにまたがる2,000を超える概念に対する大規模な実験により、我々の手法は大規模な概念消去における最新手法のスケーラビリティと精度を低下させることが示されます。