デルタスコアが重要!拡散モデルにおける空間適応型マルチガイダンス
arXiv cs.CV / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、Classifier-Free Guidance(CFG)の標準的な実装がなぜうまくいかないのかを説明しており、グローバルに一様なガイダンス係数が「ディテールとアーティファクトのジレンマ」を招くと主張しています。
- 微分幾何学と Tweedie’s Formula を用いた分析により、CFG は本質的に接線方向の線形外挿として働き、データマニフォールドが強く湾曲しているため大きな直交偏差を引き起こし得ると論じています。
- 著者らは安全に生成軌道を保つための空間・適応ガイダンスに関する理論的上限を導出し、それを踏まえて Spatial Adaptive Multi Guidance(SAMG)を提案しています。
- SAMG は学習不要で計算コストがほぼゼロのサンプリング手法で、高エネルギーの境界領域ではミニマムなガイダンスで繊細なマイクロテクスチャを保護し、低エネルギー領域では最大スケールで意味注入を強めます。
- 画像(SD 1.5、SDXL、SD3.5 Medium)および動画(CogVideoX、ModelScope)の複数アーキテクチャでの実験により、SAMG が計算オーバーヘッドなしで意味整合、構造の保全、時間的な滑らかさを改善することが示されています。

