要旨: テキスト・ツー・イメージ(T2I)拡散モデルにおける概念の消去(concept erasure)は、安全なコンテンツ生成にとって重要ですが、既存の推論時手法には大きな制約があります。特徴補正(feature-correction)アプローチはしばしば制御不能な過補正を引き起こし、一方でトークン単位の介入は意味の粒度や文脈の扱いに苦戦します。さらに、これら両種類の手法はいずれも、深刻な意味ドリフト、あるいは表現の完全な崩壊にまで至りやすいです。これらの課題に対処するため、解釈可能かつ制御可能な概念消去のための、軽量で学習不要の枠組みであるDynamic Semantic Steering(DSS)を提案します。DSSは以下を導入します: 1) 安全な意味的アンカーの発見を自動化するSensitive Semantic Boundary Modeling(SSBM)、および 2) 精密な検出のためにクロスアテンション特徴を活用し、良設定された目的関数から導かれる閉形式解によって補正を実行するSensitive Semantic Guidance(SSG)。これにより、有害な内容を最適に抑制しつつ、良性の意味を維持できます。DSSは平均消去率91.0\%を達成し、出力の忠実度への影響を最小限に抑えながら、SOTA手法を大幅に上回ります(18.6\%から85.9\%まで)。
拡散モデルのためのガイド付き概念消去におけるダイナミック・イレイサー
arXiv cs.CV / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストから画像を生成する拡散モデルにおいて特定の概念を安全に消去するための、学習不要の推論手法としてDynamic Semantic Steering(DSS)を提案する。
- DSSは、Sensitive Semantic Boundary Modeling(SSBM)で安全なセマンティック・アンカーを自動的に見つけ、Sensitive Semantic Guidance(SSG)ではクロスアテンションを用いて敏感な内容を検出し、適切な目的関数に基づく閉形式の補正を行う。
- 既存手法で起こりがちな過剰補正、意味のドリフト、表現の崩壊といった失敗モードを回避できると主張している。
- 実験では平均消去率91.0%を報告し、既存の最先端手法(18.6%〜85.9%の範囲)を大きく上回りつつ、出力の忠実度への影響は最小限に抑えられている。
- 総じて、トークン単位の介入や特徴補正に比べて、解釈可能で制御しやすく、より信頼性の高い概念抑制を目指している。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA