セマンティックに劣化させた条件で拡散モデルをガイドする
arXiv cs.CV / 2026/3/12
📰 ニュースModels & Research
要点
- 新しい手法 Condition-Degradation Guidance (CDG) は、分類器なしガイダンスにおける無のプロンプトを劣化させた条件に置換し、拡散モデルの意味的精度を向上させる。
- CDG は粗い「良い vs 無」対比から「良い vs ほぼ良い」という識別へと移行し、外部モデルや再訓練なしで、より細かな意味的制御を可能にする。
- 解析によると、トランスフォーマーのテキストエンコーダは、オブジェクトの意味論を符号化する内容トークンと、グローバルな文脈を捕捉するコンテキスト集約トークンの二つの機能的役割に分離される。前者のみを選択的に劣化させることにより、CDG は外部モデルや訓練なしで $\boldsymbol{c}_{\text{deg}}$ を構築します。
- Stable Diffusion 3、FLUX、Qwen-Image を含む多様なアーキテクチャにわたって検証した結果、CDG は組成の正確性とテキスト-画像の整合性を著しく改善します。軽量でプラグアンドプレイ可能なモジュールとして、計算オーバーヘッドはほとんどなく、これを実現します。
- 著者の GitHub リポジトリにコードが公開されています。
要約: Classifier-Free Guidance (CFG) は現代のテキストから画像へのモデルの基盤ですが、意味論的に空虚な null プロンプト ($\varnothing$) に依存することで、幾何学的な絡み合いを招くガイダンス信号を生み出します。これはその精度を制限する重要な要因であり、複雑な構成タスクにおける失敗が広く報告されています。私たちは Condition-Degradation Guidance (CDG) を提案します。これは null プロンプトを戦略的に劣化させた条件 ($\boldsymbol{c}_{\text{deg}}$) に置換する、新しいパラダイムです。これにより、ガイダンスを粗い「良い vs null」対比から、より洗練された「良い vs ほぼ良い」識別へと再定義し、モデルに微細な意味論的差異を捉えさせます。私たちは、トランスフォーマーのテキストエンコーダのトークンが、オブジェクトの意味論を符号化する内容トークンと、グローバルな文脈を捕捉するコンテキスト集約トークンの二つの機能的役割に分離されることを発見しました。前者のみを選択的に劣化させることにより、CDG は外部モデルや訓練なしで $\boldsymbol{c}_{\text{deg}}$ を構築します。Stable Diffusion 3、FLUX、Qwen-Image を含む多様なアーキテクチャにわたって検証した結果、CDG は組成の正確性とテキスト-画像の整合性を著しく改善します。軽量でプラグアンドプレイ可能なモジュールとして、計算オーバーヘッドはほとんどなく、これを実現します。私たちの研究は、静的で情報量の少ないネガティブサンプルへの依存に挑戦し、拡散ガイダンスの新しい原理を確立します:適応的で意味論的に意識されたネガティブサンプルの構築が、厳密な意味的制御を達成するために重要である、ということです。コードは https://github.com/Ming-321/Classifier-Degradation-Guidance に公開されています。



