概要: 拡散モデルは画像合成において目覚ましい性能を示している一方で、多くのUNetベースのモデルは特定の固定解像度で学習されています。そのため、学習時に想定されていない解像度で画像を生成すると、品質が低下する傾向があります。本研究では、この問題を解像度に依存したパラメータ挙動に起因すると特定します。すなわち、デフォルト解像度でうまく機能していた重みが、空間スケールが変化すると逆効果になり、意味的な整合性が弱まることで、UNetアーキテクチャにおける構造的な不安定性を引き起こすのです。以上の分析に基づき、本論文では拡散モデルの一部パラメータを剪除(pruning)することで、解像度をまたいだ視覚的な一貫性を向上させる新しい手法CR-Diffを提案します。具体的には、CR-Diffは2段階から成ります。まず、ブロック単位で剪除を行い、逆効果となる重みを選択的に除去します。次に、剪除後の出力増幅を実施し、剪除された予測をさらに精製します。実験的に、広範な実験の結果は、CR-Diffが、さまざまな拡散バックボーンおよび未見の解像度において知覚的な忠実性と意味的な一貫性を改善できることを示しています。また、デフォルト解像度での性能は概ね維持されます。さらに、CR-Diffはプロンプト固有のリファインメントをサポートしており、必要に応じて品質を向上させることが可能です。
ネットワーク剪定によるクロス・レゾリューション拡散モデル
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- UNetベースの拡散モデルは、学習時に見たことのない解像度で生成するとき、意味的な整合性を失い、構造的に不安定になることが多い。
- 本論文は、この劣化を解像度依存のパラメータ挙動に起因するとしている。すなわち、デフォルトのスケールで機能していた一部の重みが、空間スケーリングの変更後に有害になってしまう。
- 提案手法は CR-Diff であり、まず有害な重みを除去するためにブロック単位で剪定を行い、次に予測をより適切に浄化するために剪定済みの出力増幅を適用する、二段階アプローチを採用する。
- 実験結果は、CR-Diff が未観測の解像度にわたって知覚的な忠実性と意味的一貫性を改善しつつ、デフォルト解像度での性能を概ね維持できることを示している。
- また、この手法はプロンプト固有の改善(リファイン)も可能にし、要求に応じて狙いを定めた品質向上を実現する。
