クォータニオン・ウェーブレット条件付け拡散モデルによる画像超解像

arXiv cs.CV / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、クォータニオン・ウェーブレットの前処理と潜在拡散モデルを組み合わせた画像超解像フレームワーク「ResQu」を提案し、再構成品質の向上を目指します。
ResQuは、クォータニオン・ウェーブレットおよび時間に着目したエンコーダを導入し、クォータニオン・ウェーブレット埋め込みをデノイジングの複数段階で動的に統合することで、知覚的な自然さと構造の正確さの両立を図ります。
さらに、Stable Diffusionのような基盤モデルの生成的な事前知識を活用し、高品質な画像生成を強化しています。
ドメイン固有のデータセットでの実験により、ResQuは知覚評価および標準的評価指標の両面で既存手法を上回ることが多い、良好な超解像性能を示します。
著者らは実装と再現性のためにコードを公開しています。

要旨: 画像超解像は、医用画像から衛星解析に至る幅広い応用を持つ、コンピュータビジョンにおける基礎的な課題です。低解像度入力から高解像度画像を再構成する能力は、物体検出やセグメンテーションといった下流タスクを強化するうえで重要です。深層学習はSRを大きく前進させてきましたが、きめ細かな詳細や現実的な質感を備えた高品質な再構成を実現することは、特に高い拡大率において依然として困難です。拡散モデルを活用した最近の手法は有望な結果を示していますが、多くの場合、知覚品質と構造の忠実性の両立に苦慮しています。本研究では、四元数ウェーブレットの前処理フレームワークと潜在拡散モデルを統合する新しいSRフレームワークであるResQuを提案します。さらに、新しい四元数ウェーブレットおよび時間認識型エンコーダを組み込みます。拡散モデルの中で単にウェーブレット変換を適用するだけの先行手法とは異なり、本アプローチは四元数ウェーブレット埋め込みを活用することで条件付けプロセスを強化し、異なる段階のノイズ除去に動的に統合します。加えて、Stable Diffusionのような基盤モデルの生成的事前知識も活用します。ドメイン固有のデータセットに対する大規模な実験により、本手法が卓越したSR結果を達成し、多くのケースで既存手法を知覚品質および標準的評価指標の両面で上回ることが示されます。コードは https://www.github.com/Fascetta/ResQu で公開されています

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

日経XTECH

2026年版：学生のための無料AIツールトップ10—究極の学習ガイド

Dev.to

AIを“保険の相棒”に：結婚式当日の「もしも」を自動化する

Dev.to

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

MarkTechPost

Claudeが法廷でハルシネーションを起こすとどうなるか：Latham＆Watkinsの事案と弁護士の責任の意味

MarkTechPost

クォータニオン・ウェーブレット条件付け拡散モデルによる画像超解像

要点

関連記事

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

2026年版：学生のための無料AIツールトップ10—究極の学習ガイド

AIを“保険の相棒”に：結婚式当日の「もしも」を自動化する

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

Claudeが法廷でハルシネーションを起こすとどうなるか：Latham＆Watkinsの事案と弁護士の責任の意味

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer