要旨: 映像圧縮は、最小限のビットレートで再構成品質を最大化することを目的としています。標準的な歪み指標を超えて、知覚品質と時間的一貫性も重要です。しかし、超低ビットレートでは、従来のエンドツーエンド圧縮モデルは知覚品質の低いぼやけた画像を生み出す傾向があります。さらに、既存の生成型圧縮手法はしばしばビデオフレームを独立して扱い、時間的一貫性と効率性に限界を示します。これらの課題に対処するため、Sparse Information Transmission(Diff-SIT)を用いた Efficient Video Diffusion(Diff-SIT)を提案します。これは、Sparse Temporal Encoding Module(STEM)と One-Step Video Diffusion with Frame Type Embedder(ODFTE)で構成されます。STEMは元のフレーム列を情報量豊かな中間列へとまばらに符号化し、ビットレートの大幅な節約を実現します。その後、ODFTEはこの中間列を全体として処理し、時間的相関を活用します。この過程で、提案する Frame Type Embedder(FTE)は、フレームタイプに応じた適応的な再構成を拡散モデルに指示し、全体的な品質を最適化します。複数のデータセットに対する広範な実験により、Diff-SIT は知覚品質と時間的一貫性の新たな最先端を確立していることが示されており、特に難易度の高い超低ビットレート領域で顕著です。コードは https://github.com/MingdeZhou/Diff-SIT で公開されています。
動画圧縮のためのスパース情報伝送を活用した効率的な拡散モデル
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Diff-SIT は、超低ビットレートで知覚品質と時間的一貫性を最大化するよう設計された拡散ベースの動画圧縮フレームワークです。
- Sparse Temporal Encoding Module (STEM) を導入し、原始フレーム列を情報量豊富な中間列へとスパースに符号化することで、ビットレートを大幅に節約します。
- Frame Type Embedder のガイダンスを用いて中間列を処理し、異なるフレームタイプに適応した再構成を実現する One-Step Video Diffusion with Frame Type Embedder(ODFTE)を導入します。
- 本手法は複数のデータセットにおいて最先端の知覚品質と時間的一貫性を達成しており、著者らは GitHub でコードを公開しています。