要旨: 知覚的動画圧縮は、生成的事前情報を活用して低ビットレートで現実的な質感と動きを再構成します。 しかし、既存の知覚的コーデックは可変ビットレートと段階的配信へのネイティブな対応を欠くことが多く、生成モジュールとエントロピー符号化の結合も弱いため、ビットレート削減が制限されます。 視覚自己回帰 (VAR) モデルにおける次スケール予測に触発され、プログレッシブベースの生成型動画圧縮フレームワークであるProGVCを提案します。これは、段階的伝送、効率的なエントロピー符号化、およびディテール合成を単一のコーデック内で統合します。 ProGVCは、階層的なマルチスケール残差トークンマップに動画をエンコードし、粗いスケールから細かいスケールのサブセットを段階的に伝送することによって、柔軟なレート適応を可能にします。 Transformerベースのマルチスケール自己回帰文脈モデルはトークン確率を推定します。これは送信されたトークンのエントロピー符号化を効率化するため、およびデコーダで知覚的ディテールを回復するために欠落した細かいスケールのトークンを予測するためにも使用されます。 広範な実験により、新しい符号化パラダイムとして、ProGVCは低ビットレートで有望な知覚圧縮性能を提供すると同時に、実用的なスケーラビリティを実現することが示されています。
ProGVC: 自己回帰コンテキストモデリングによるプログレッブ型生成ビデオ圧縮
arXiv cs.CV / 2026/3/19
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ProGVCは、階層的なマルチスケール残差トークンマップを用いたプログレッシブ型生成ビデオ圧縮を導入し、粗いスケールから細かいスケールへ順次伝送することで柔軟なビットレート適応を可能にします。
- Transformerベースのマルチスケール自己回帰コンテキストモデルは、効率的なエントロピー符号化のためのトークン確率を推定し、デコーダで切り捨てられた高精細スケールのトークンを予測して知覚的ディテールを再現できる。
- このフレームワークは、プログレッシブ伝送、エントロピー符号化、ディテール合成を単一のコーデック内で統合し、スケーラブルで低ビットレートの知覚圧縮を実現する。
- 実験結果は、低ビットレートでの知覚圧縮性能が有望であり、実用的なスケーラビリティを示し、知覚品質と帯域幅効率の点で従来のコーデックよりも有利である可能性を示唆している。
