メタデータに導かれた拡散モデルによるブラインドなビットストリーム破損映像の回復
arXiv cs.CV / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、手動で与えられる破損マスクを不要とする新しい「ブラインド(blind)」なビットストリーム破損映像回復の設定を提案し、現実の劣化に対する復元の実用性を高める。
- 動きベクトルやフレーム種別などの内在的な映像メタデータを用いるメタデータ導出拡散モデル(Metadata-Guided Diffusion Model: M-GDM)を提案する。デュアルストリームエンコーダと、各拡散ステップにおけるクロスアテンションにより、破損領域を特定し、再構成を導く。
- 事前分布(prior)に基づくマスク予測器が、メタデータと拡散の事前分布から疑似マスクを生成する。これにより、ハードマスキングと再結合を通じて、損なわれていない潜在領域と回復対象の潜在領域を分離できる。
- 不完全なマスク推定によって生じる目に見える継ぎ目や境界アーティファクトを減らすために、保存領域と復元領域の整合性を高めるポストリファインメント(事後改善)モジュールを追加する。
- 実験の結果、従来のブラインドな映像回復手法よりも優れた性能を示すと報告されており、GitHubでコードが公開されている。


