InstaVSR: 効率的かつ時間的に一貫したビデオ超解像のための拡散の制御

arXiv cs.CV / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、低解像度入力から効率的かつ時間的に一貫したビデオ超解像を実現する拡散ベースの枠組みであるInstaVSRを提案する。
ビデオ拡散における2つの主要課題――強力な生成的事前知識による時間的不安定性と、多フレームにまたがる拡散の計算コストの高さ――に対し、軽量で枝刈りされたワンステップ拡散バックボーンにより取り組む。
InstaVSRは、フローに導かれた時間的正則化を用いた再帰的トレーニングにより、フレーム間の一貫性を改善する。
バックボーンを簡略化しても知覚品質を維持するため、潜在空間とピクセル空間の両方でデュアル空間の敵対的学習を適用する。
著者らは強力な効率性の結果を報告している。NVIDIA RTX 4090上で、30フレームの2K×2K動画を約7GBのメモリ使用量で1分未満に超解像し、先行する拡散ベースVSRアプローチよりも時間的遷移が滑らかであるという。

Abstract

動画超解像（VSR）は、低解像度入力から高解像度フレームを再構成することを目指します。拡散（diffusion）ベースの手法は知覚品質を大幅に改善してきましたが、動画へ拡張することは依然として困難です。その理由は2つあります。第一に、強力な生成的事前知識（generative priors）が時間方向の不安定さを生じさせ得ること、第二に、複数フレームの拡散パイプラインは実運用に対してしばしばコストが高すぎることです。これら2つの課題に同時に対処するため、我々は高効率な動画超解像のための軽量拡散フレームワークであるInstaVSRを提案します。InstaVSRは3つの要素を組み合わせています。（1）従来の拡散ベースVSRパイプラインからいくつかの高コストな構成要素を取り除く、刈り込み（pruned）済みの1ステップ拡散バックボーン、（2）フレーム間の安定性を高めるための、フロー（flow）に導かれた時間方向の正則化を用いた反復的（recurrent）学習、（3）バックボーンの簡略化後でも知覚品質を維持するための、潜在空間とピクセル空間における二重空間の敵対的学習（dual-space adversarial learning）です。NVIDIA RTX 4090上で、InstaVSRは2K