要旨: 最近の進歩にもかかわらず、単一画像超解像(SR)は依然として難しく、特に複雑な劣化を伴う現実の状況では困難が顕著です。拡散ベースのSR手法、特にStable Diffusion上に構築された手法は強力な生成的事前知識を活用しますが、一般的には意味キャプションに由来するテキストによる条件付けに依存しています。このようなテキスト記述は高レベルの意味論のみを提供し、忠実な復元に必要な、空間的に整合した視覚情報を欠いています。その結果、抽象的な意味論と、空間的に整合した視覚的詳細との間に表現ギャップが生じます。この制約に対処するために、本研究ではGramSRを提案します。GramSRは、事前学習済みのDINOv3エンコーダを用いて低解像度入力から抽出した密な視覚特徴によって、テキスト条件付けを置き換える、ワンステップの拡散ベースSRフレームワークです。GramSRは3段階のLoRAアーキテクチャを採用しており、画素レベル、意味レベル、テクスチャレベルのLoRAモジュールを順次学習します。画素レベルモジュールはell_2損失を用いた劣化除去に焦点を当て、意味レベルモジュールはLPIPSおよびCSD損失により知覚的な詳細を強化し、テクスチャレベルモジュールはDINOv3特徴から計算したグラム行列損失により特徴の相関整合性を強制します。推論時には、独立したガイダンススケールによって、劣化除去、意味強調、テクスチャの保持を柔軟に制御できます。標準的なSRベンチマークに対する大規模な実験により、GramSRは既存のワンステップ拡散ベース手法を一貫して上回り、優れた構造的忠実性とテクスチャのリアリティを実現することが示されています。本研究のコードは以下で公開されています: https://github.com/aimagelab/GramSR.
GramSR:拡散ベース超解像における視覚特徴の条件付け
arXiv cs.CV / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- GramSRは、現実の複雑な劣化下での復元性能を高めることを目的に、テキストの意味論と空間的に整合した視覚情報の不一致を抑えるワンステップ拡散ベースの単一画像超解像フレームワークである。
- GramSRはテキスト条件付けの代わりに、事前学習済みDINOv3エンコーダで低解像度入力から抽出した密な視覚特徴を用いて拡散モデルを条件付けする。
- 手法は3段階のLoRA学習パイプラインを採用し、順にピクセルレベル(劣化除去をL2損失で学習)、セマンティックレベル(知覚的な詳細をLPIPSとCSD損失で強化)、テクスチャレベル(DINOv3特徴から計算したグラム行列損失で特徴相関の整合性を強制)を学習する。
- 推論時には、劣化除去・セマンティック強化・テクスチャ保持の間で別々にガイダンススケールを調整できる。
- 標準的な超解像ベンチマークでの実験により、GramSRは既存のワンステップ拡散ベース手法を一貫して上回り、構造の忠実性とテクスチャの現実感が改善することが示され、コードはGitHubで公開されている。



