画像生成における難易度対応型適応サンプリング:Denoising(除去)を速く、遅く

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 拡散(Diffusion)/フロー型の画像生成モデルは通常、画像の全パッチに対して計算量を一様に配分しますが、自然画像には領域ごとに除去(denoise)の難しさの異質性があります。
  • 論文では、トークンごとに単純に異なるタイムステップを割り当てるだけでは、推論時に現れない“過度に情報が多い”訓練状態にモデルをさらしてしまい、性能が悪化し得ることを示します。
  • そこで、訓練中にパッチ単位で利用可能な最大情報量を明示的に制御するタイムステップ・サンプラを提案し、グローバルなタイムステップからパッチ単位へ移すだけで標準ベースラインより画像生成が改善することを示します。
  • さらに、軽量なパッチごとの難易度ヘッドを追加して計算の配分を動的に最適化し、難しい領域のための文脈を得られるように“簡単な領域を先に進める”Patch Forcing(PF)という枠組みを導入します;PFはクラス条件付きImageNetで優れた結果を出し、表現整合やガイダンス手法と両立しつつテキストから画像生成にもスケールします。