クォータニオン・ウェーブレット条件付け拡散モデルによる画像超解像

arXiv cs.CV / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クォータニオン・ウェーブレットの前処理と潜在拡散モデルを組み合わせた画像超解像フレームワーク「ResQu」を提案し、再構成品質の向上を目指します。
  • ResQuは、クォータニオン・ウェーブレットおよび時間に着目したエンコーダを導入し、クォータニオン・ウェーブレット埋め込みをデノイジングの複数段階で動的に統合することで、知覚的な自然さと構造の正確さの両立を図ります。
  • さらに、Stable Diffusionのような基盤モデルの生成的な事前知識を活用し、高品質な画像生成を強化しています。
  • ドメイン固有のデータセットでの実験により、ResQuは知覚評価および標準的評価指標の両面で既存手法を上回ることが多い、良好な超解像性能を示します。
  • 著者らは実装と再現性のためにコードを公開しています。

要旨: 画像超解像は、医用画像から衛星解析に至る幅広い応用を持つ、コンピュータビジョンにおける基礎的な課題です。低解像度入力から高解像度画像を再構成する能力は、物体検出やセグメンテーションといった下流タスクを強化するうえで重要です。深層学習はSRを大きく前進させてきましたが、きめ細かな詳細や現実的な質感を備えた高品質な再構成を実現することは、特に高い拡大率において依然として困難です。拡散モデルを活用した最近の手法は有望な結果を示していますが、多くの場合、知覚品質と構造の忠実性の両立に苦慮しています。本研究では、四元数ウェーブレットの前処理フレームワークと潜在拡散モデルを統合する新しいSRフレームワークであるResQuを提案します。さらに、新しい四元数ウェーブレットおよび時間認識型エンコーダを組み込みます。拡散モデルの中で単にウェーブレット変換を適用するだけの先行手法とは異なり、本アプローチは四元数ウェーブレット埋め込みを活用することで条件付けプロセスを強化し、異なる段階のノイズ除去に動的に統合します。加えて、Stable Diffusionのような基盤モデルの生成的事前知識も活用します。ドメイン固有のデータセットに対する大規模な実験により、本手法が卓越したSR結果を達成し、多くのケースで既存手法を知覚品質および標準的評価指標の両面で上回ることが示されます。コードは https://www.github.com/Fascetta/ResQu で公開されています