二重射影による閉形式の概念消去

arXiv cs.LG / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、反復的な最適化を行わずに、事前学習済み生成モデルの表現から不要な概念を除去するための「概念消去」を目的とした、学習不要の閉形式(クローズドフォーム)な線形変換手法を提案する。
  • アプローチでは、2つの決定的な射影ステップを用いる。まず対象概念の代理となる射影を推定し、その後、既知の概念方向の左零空間における制約付き変換を適用することで、無関係な概念を乱さないようにする。
  • Stable Diffusion の各種派生モデルとフローマッチングモデル(FLUX)に対する実験では、本手法が最先端手法に匹敵、または上回る性能を示しつつ、非対象概念をより忠実に保持できることが確認される。
  • 本手法は数秒で動作し、既存のワークフローにそのまま組み込める(ドロップイン)ツールとして設計されているため、安全で制御しやすいモデル編集のための軽量な経路を提供する。
  • 本研究は、概念消去を幾何学的に解釈可能な手続きとして位置付け、最適化ベースの手法と比べてより明確な理論的根拠を与える。

要旨: 拡散ベースのアーキテクチャのような現代的な生成モデルは目を見張る創造的能力を可能にした一方で、重要な安全性および倫理的リスクも引き起こします。これらの懸念は、モデル表現から不要な概念を取り除く「概念消去(concept erasure)」への関心の高まりにつながっています。既存の手法は多くの場合、強力な消去性能を達成しますが、反復的な最適化に依存しており、意図しない形で無関係な概念を歪めてしまう可能性があります。本研究では、シンプルでありながら筋の通った代替案として、学習を一切行わずに概念消去を解析的に達成する線形変換フレームワークを提示します。提案手法は、2つの連続した閉形式のステップによって、事前学習済みモデルを適応します。第一に、対象概念のための代理的な射影を計算し、第二に、既知の概念方向の左側の零空間(left null space)内に制約付き変換を適用します。この設計により、安全・効率的・理論に裏付けられた概念除去のための、決定論的で幾何学的に解釈可能な手順が得られます。多様な実験にわたって、複数のStable Diffusionバリアントおよびフローマッチングモデル(FLUX)における「物体の消去」や「スタイルの消去」を含めると、当手法は最先端手法の性能に匹敵、あるいは上回りつつ、非対象の概念をより忠実に保持します。適用に必要なのは数秒のみであり、制御されたモデル編集のための軽量で、そのまま導入できるツールとして提供できるため、安全でより責任ある生成モデルという目標を前進させます。