潜在拡散モデルにおける分散拡張損失でサンプリング摂動を制御する

arXiv cs.CV / 2026/3/24

💬 オピニオン

要点

  • 本論文は、潜在拡散モデルの品質は再構成精度や意味的整合性だけでなく、拡散過程における確率的サンプリング摂動に対する頑健性にも依存すると主張している。

要旨: 潜在拡散モデルは、コンパクトな潜在空間上で拡散過程を学習できることにより、高忠実度かつ効率的な画像生成のための支配的な枠組みとして登場してきた。 しかし、先行研究が主として潜在空間の再構成精度と意味的整合性に焦点を当ててきた一方で、生成品質を決定する重要な別の要因として、サンプリング摂動への頑健性もまた決定的な役割を果たすことを我々は観察している。 実証的および理論的な分析を通じて、潜在拡散モデルで一般に用いられるeta-VAEベースのトークナイザが、拡散サンプリング中の確率的摂動に対して非常に高い感度を持つ、過度にコンパクトな潜在マニフォールドを生み出す傾向があり、その結果として視覚的劣化を招くことを示す。 この問題に対処するために、サンプリング摂動に対して頑健な潜在空間を構築しつつ、強い再構成忠実度を維持するという、単純でありながら効果的な解決策を提案する。 これは、分散崩壊を打ち消すVariance Expansion(分散拡張)損失を導入し、再構成と分散拡張の敵対的な相互作用を活用することで達成される。これにより、再構成精度を保持しつつ、確率的サンプリングに対する頑健性を向上させる適応的なバランスを実現する。 大規模な実験により、本手法は異なる潜在拡散アーキテクチャにわたって一貫して生成品質を向上させることが示され、安定で忠実な拡散サンプリングのためには、潜在空間における頑健性が欠けていた重要な要素であることが確認された。