LPNSR: LR誘導によるノイズ予測を介した、Prior強化拡散による低解像度画像超解像

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、高い再構成品質を維持しつつ、効率的なコンパクトな4ステップの推論軌道を用いる拡散ベースの画像超解像フレームワークであるLPNSRを提案する。
  • 残差シフト型拡散における性能低下に対処するため、解析的に最適な中間ノイズ解を導出し、制約のないランダムなガウスノイズを、LR(低解像度)に導かれたマルチ入力を考慮するノイズ予測器に置き換える。これにより、逆過程へ低解像度の構造的事前知識を注入する。
  • 素朴なバイキュービック拡大による初期化バイアスを修正するため、LPNSRは高品質な事前拡大ネットワークを用いて、拡散の開始点となるより良い初期状態を生成する。
  • 本手法はエンドツーエンドで学習され、報告によれば、大規模なテキストから画像への事前知識を用いずに、合成データセットおよび実世界データセットの両方で最先端の知覚品質を達成する。コードはGitHubで公開されている。

Abstract

拡散ベースの画像超解像(SR)は、対応する低解像度(LR)の観測から高解像度(HR)画像を復元することを目的としており、推論効率と再構成品質の間に本質的なトレードオフがあります。最先端の残差シフト型拡散フレームワークは効率的な4ステップ推論を実現していますが、コンパクトなサンプリング軌道では性能が大きく劣化します。これは主に2つの中核的な制約によるものです。すなわち、残差シフト型拡散の中間ステップにおける制約のないランダムなガウス雑音の本質的な不適切さにより、誤差が蓄積し、LRの事前知識(prior)による十分なガイダンスが得られないこと、そして、素朴なバイキュービック超解像(bicubic upsampling)によって生じる初期化バイアスです。本論文では、これらの問題に対処するための事前知識を強化した効率的拡散フレームワークであるLPNSRを提案します。まず、残差シフト型拡散パラダイムにおける最適な中間雑音の閉形式の解析解を数学的に導出し、それに基づいて、ランダムなガウス雑音を置き換えるLRガイダンス付きのマルチ入力対応雑音予測器を設計します。これにより、逆過程にLRの構造的事前知識を埋め込みつつ、フレームワークの中核である効率的な残差シフト機構を完全に保持します。さらに、高品質な事前超解像ネットワークを用いて拡散の開始点を最適化し、初期バイアスを緩和します。コンパクトな4ステップの軌道により、LPNSRはエンドツーエンドで最適化できます。広範な実験により、LPNSRが、大規模なテキストから画像への事前知識に依存することなく、合成データセットおよび実世界データセットの両方において最先端の知覚的性能を達成することを示します。本手法のソースコードは https://github.com/Faze-Hsw/LPNSR にて公開されています。