Abstract
ノイズを写真に変えるとき、拡散モデルは実際には何をしているのか?
私たちは、決定論的な DDIM の逆連鎖が Partitioned Iterated Function System (PIFS) として動作し、このフレームワークがノイズ除去拡散モデルのスケジュール、アーキテクチャ、学習目的の統一設計言語として機能することを示す。PIFS構造から、三つの計算可能な幾何量を導出する:各ステップの収縮閾値 L^*_t、対角拡張関数 f_t(le)、およびグローバルな拡張閾値 lambda^{**}。これらの量はモデル評価を必要とせず、ノイズ除去ダイナミクスを完全に特徴づける。これらは、拡散モデルの二つのレジーム挙動を構造的に説明する:高ノイズ時には拡散的なパッチ間注意を介したグローバルな文脈の組み立て、低ノイズ時には厳密な分散順に従ってパッチごとに抑制を解放することによる微細部の合成。自己注意は PIFS 収縮の自然なプリミティブとして現れる。PIFS アトラクターのカプラン=ヨーク次元は、リャプノフスペクトル上の離散モラン方程式を通じて解析的に決定される。
PIFS のフラクタル幾何学の研究を通じて、私たちは三つの最適設計基準を導出し、コサインスケジュールのオフセット、解像度依存の logSNR シフト、Min-SNR 損失ウェイティング、Align Your Steps サンプリングという四つの顕著な経験的設計選択が、それぞれ私たちの幾何学的最適化問題の明示的解として現れ、理論を実践へと調整することを示す。