要旨: テキストから画像への(T2I)モデルは敵対的誘導による重大な安全リスクに直面していますが、現在の概念消去手法は、選択されたニューロンを完全に抑制すると良性属性に付随的な損害を引き起こすことがよくあります。これは、敏感なセマンティクスと良性セマンティクスが非直交的な重ね合わせを示し、それぞれのベクトルが本質的に絡み合う活性化の部分空間を共有しているためです。この問題に対処するため、我々はOrthoEraserを提案します。OrthoEraserはスパースオートエンコーダ(SAE)を活用して高解像度の特徴の分離を実現し、消去を解析的直交化射影として再定義して、良性マニフォールドの不変性を保持します。OrthoEraserはまずSAEを用いて密な活性化を分解し、敏感なニューロンを分離します。次に結合ニューロン検出を用いて介入に脆弱な非敏感な特徴を特定します。主要な新規性は、結合ニューロンの零空間へ消去ベクトルを射影する解析的勾配直交化戦略にあります。これにより、敏感な概念を識別された重大な良性サブスペースと直交的にデコップルさせ、非敏感なセマンティクスを効果的に保持します。安全性に関する実験結果は、OrthoEraserが高い消去精度を達成し、有害な内容を効果的に除去しながら生成マニフォールドの完全性を維持し、最先端のベースラインを大きく上回ることを示しています。本論文には安全でないモデルの結果が含まれています。
OrthoEraser: 結合ニューロン直交射影による概念消去
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- OrthoEraserは、テキスト-画像モデルの活性化から敏感な概念を良性属性と分離するためにスパースオートエンコーダを導入し、標的概念消去を可能にします。
- 本手法は消去を解析的勾配直交化として定義し、消去ベクトルを結合ニューロンの零空間に射影することで、有害な内容を良性マニフォールドから切り離します。
- 結合ニューロン検出を用いて介入に脆弱な非敏感特徴を特定し、非標的セマンティクスへの付随的損害を最小化することを目指します。
- 実験結果は高い消去精度と最先端のベースラインに対する顕著な改善を主張し、安全でないモデルの結果が報告されています。


