ProGVC: 自己回帰コンテキストモデリングによるプログレッブ型生成ビデオ圧縮

arXiv cs.CV / 2026/3/19

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ProGVCは、階層的なマルチスケール残差トークンマップを用いたプログレッシブ型生成ビデオ圧縮を導入し、粗いスケールから細かいスケールへ順次伝送することで柔軟なビットレート適応を可能にします。
Transformerベースのマルチスケール自己回帰コンテキストモデルは、効率的なエントロピー符号化のためのトークン確率を推定し、デコーダで切り捨てられた高精細スケールのトークンを予測して知覚的ディテールを再現できる。
このフレームワークは、プログレッシブ伝送、エントロピー符号化、ディテール合成を単一のコーデック内で統合し、スケーラブルで低ビットレートの知覚圧縮を実現する。
実験結果は、低ビットレートでの知覚圧縮性能が有望であり、実用的なスケーラビリティを示し、知覚品質と帯域幅効率の点で従来のコーデックよりも有利である可能性を示唆している。

要旨: 知覚的動画圧縮は、生成的事前情報を活用して低ビットレートで現実的な質感と動きを再構成します。しかし、既存の知覚的コーデックは可変ビットレートと段階的配信へのネイティブな対応を欠くことが多く、生成モジュールとエントロピー符号化の結合も弱いため、ビットレート削減が制限されます。視覚自己回帰 (VAR) モデルにおける次スケール予測に触発され、プログレッシブベースの生成型動画圧縮フレームワークであるProGVCを提案します。これは、段階的伝送、効率的なエントロピー符号化、およびディテール合成を単一のコーデック内で統合します。 ProGVCは、階層的なマルチスケール残差トークンマップに動画をエンコードし、粗いスケールから細かいスケールのサブセットを段階的に伝送することによって、柔軟なレート適応を可能にします。 Transformerベースのマルチスケール自己回帰文脈モデルはトークン確率を推定します。これは送信されたトークンのエントロピー符号化を効率化するため、およびデコーダで知覚的ディテールを回復するために欠落した細かいスケールのトークンを予測するためにも使用されます。広範な実験により、新しい符号化パラダイムとして、ProGVCは低ビットレートで有望な知覚圧縮性能を提供すると同時に、実用的なスケーラビリティを実現することが示されています。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

ProGVC: 自己回帰コンテキストモデリングによるプログレッブ型生成ビデオ圧縮

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer