学習可能な可逆変換とセマンティック・プライアによる忠実な極端画像リスケーリング

arXiv cs.CV / 2026/5/4

📰 ニュースTools & Practical UsageModels & Research

要点

  • この論文は、16倍以上の極端な画像リスケーリングにおいて、意味的に一貫した構造を保ちつつ品質を高めるための拡散ベースの枠組み「FaithEIR」を提案する。
  • FaithEIRは、SVDに着想を得た学習可能な可逆変換を用いて、潜在空間上での可逆的なダウンサンプリング/アップサンプリングを可能にし、低〜高解像度写像の難しさを緩和する。
  • クオンタイズによる情報損失には、学習データ中でよく現れる構造の経験的平均を捉える高周波辞書として実装された適応型ディテール・プライアを追加して補う。
  • さらに、軽量なピクセル・セマンティック・エンベッダーでセマンティック条件付けを行い、事前学習済みの拡散モデルを支援する。
  • 実験では再構成忠実度と知覚品質の両面で既存の最先端手法を上回り、コードとモデル重みがGitHubで公開されている。

Abstract

近年の極端なリスケーリング手法の多くは、意味的に一貫した構造を維持し、現実的なディテールを生成することに苦戦しています。これは、スケーリング係数が16\times以上となる低解像度から高解像度への写像が、著しく不適切(ill-posed)であることに起因します。上記の問題を軽減するために、我々は極端な画像リスケーリングのための拡散ベースの枠組みFaithEIRを提案します。特異値分解に着想を得て、潜在空間において不可逆ではない(可逆な)ダウンサンプリングとアップサンプリングを可能にする、学習可能な可逆変換を開発します。量子化による情報損失を補うために、適応的なディテール・プライア(detail prior)を提案します。これは訓練データ中で頻出する構造の経験的な平均を捉える、高周波の辞書です。最後に、学習済み拡散モデルへ意味的な条件付けを与えるための、軽量なピクセル意味埋め込み器(pixel semantic embedder)を設計します。広範な実験結果を示し、我々のFaithEIRが常に最先端手法を上回り、再構成の忠実性と知覚品質の両面で優れた性能を達成することを確認します。コード、モデル重み、詳細な結果は https://github.com/cshw2021/FaithEIR で公開しています。