Abstract
動画超解像(VSR)は、低解像度入力から高解像度フレームを再構成することを目指します。拡散(diffusion)ベースの手法は知覚品質を大幅に改善してきましたが、動画へ拡張することは依然として困難です。その理由は2つあります。第一に、強力な生成的事前知識(generative priors)が時間方向の不安定さを生じさせ得ること、第二に、複数フレームの拡散パイプラインは実運用に対してしばしばコストが高すぎることです。これら2つの課題に同時に対処するため、我々は高効率な動画超解像のための軽量拡散フレームワークであるInstaVSRを提案します。InstaVSRは3つの要素を組み合わせています。(1)従来の拡散ベースVSRパイプラインからいくつかの高コストな構成要素を取り除く、刈り込み(pruned)済みの1ステップ拡散バックボーン、(2)フレーム間の安定性を高めるための、フロー(flow)に導かれた時間方向の正則化を用いた反復的(recurrent)学習、(3)バックボーンの簡略化後でも知覚品質を維持するための、潜在空間とピクセル空間における二重空間の敵対的学習(dual-space adversarial learning)です。NVIDIA RTX 4090上で、InstaVSRは2K\times2K解像度の30フレーム動画を、メモリ使用量7GBのみで1分未満で処理します。既存の拡散ベース手法と比べて計算コストを大幅に削減しつつ、知覚品質も良好なまま維持し、さらに時間方向の遷移が大きく滑らかになります。