InstanceRSR:インスタンス認識表現アラインメントによる実世界超解像

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在の実世界超解像(RSR)手法の重要な弱点を指摘する。すなわち、MSEのようなノイズ除去損失はグローバルな一貫性を促す一方で、複雑なシーンにおける微細な、インスタンス単位の情報を十分に復元できない。
  • そこでInstanceRSRは、低解像度入力から得られるグローバルな一貫性のガイダンスと、サンプリング中にセマンティックセグメンテーションマップを用いて意味的な関連性を強制する仕組みを組み合わせる。
  • InstanceRSRはさらに、拡散潜在空間をインスタンス潜在特徴と整合させるインスタンス表現学習モジュールを追加し、インスタンス認識の特徴アラインメントを実現する。
  • さらに、微細な知覚とディテール復元の向上を目的としたスケール整合メカニズムを導入する。
  • 複数の実世界ベンチマークでの実験により、本手法が新たな最先端性能を達成し、量的指標と視覚的品質の両方が向上することが示される。加えて、インスタンスレベルでの意味的一貫性も維持される。

Abstract

生成的事前(ジェネレーティブ・プリオル)に基づく既存の現実世界超解像(RSR)手法は、高品質かつグローバルに一貫した再構成の生成において目覚ましい進歩を遂げています。しかし、複雑な現実世界のシーンにおける多様な物体インスタンスの微細な詳細の回復にしばしば苦戦します。この制限は主に、一般的に採用される復元損失(例:MSE)が本質的にグローバルな一貫性を優先する一方で、インスタンス単位の知覚と復元を軽視していることに起因します。そこで本研究では、この問題に対処するため、InstanceRSRという新しいRSRフレームワークを提案します。このフレームワークは意味情報を共同でモデル化し、さらにインスタンスレベルの特徴アライメント(整合)を導入します。具体的には、低解像度(LR)画像をグローバルな一貫性のガイダンスとして用い、そのうえで画像データとセマンティックセグメンテーション(意味領域の分割)マップを共同でモデル化し、サンプリング中に意味的妥当性を強制します。さらに、拡散潜在空間をインスタンス潜在空間に整合させるインスタンス表現学習モジュールを設計し、インスタンスを意識した特徴アライメントを可能にします。加えて、微細な知覚と詳細復元を強化するためのスケールアライメント機構も組み込みます。これらの設計の恩恵により、提案手法は写実的な詳細を生成するだけでなく、インスタンスレベルでの意味的一貫性も維持します。複数の現実世界ベンチマークに対する大規模な実験により、InstanceRSRが定量指標と視覚的品質の両方において、既存手法を大幅に上回り、新たな最先端(SOTA)の性能を達成することを示します。