要旨: 潜在拡散モデルで使用されるビデオ変分自己符号化器(VAE)は、良質なビデオ再構成を確実に行うために、通常は十分に多い数の潜在チャネルを必要とします。しかし近年の研究では、潜在チャネル数が過剰である場合、再構成品質が高いままであっても、潜在拡散モデルの収束を妨げ、生成性能を低下させうることが明らかになっています。本研究では、チャネル数を直接減らすのではなく、ビデオ潜在表現に含まれる高周波成分を除去する潜在圧縮手法を提案します。この方法はしばしば再構成の忠実度を損なうためです。実験結果は、提案手法が、同一の全体的な圧縮率を維持しつつ、強力なベースラインと比較して優れたビデオ再構成品質を達成することを示しています。
潜在圧縮型変分オートエンコーダによる動画拡散モデル
arXiv cs.CV / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 動画VAEは潜在拡散モデルで高品質な再構成のために十分な潜在チャネル数が必要だが、チャネル数が多すぎると拡散の収束が悪化し、生成性能も低下し得る。
- 本論文は、潜在表現の高周波成分を抑えることで潜在を圧縮する手法を提案し、単純に潜在チャネル数を減らす方法では損なわれがちな再構成精度を回避する。
- 実験では、提案手法が強力なベースラインよりも優れた動画再構成品質を実現しつつ、全体の圧縮率は同じままであることが示された。
- 潜在空間における周波数内容を狙うことで、圧縮と生成品質のバランスを取る設計指針を示している。
- arXivへの新規投稿であり、今後の動画拡散におけるVAE設計や学習戦略に影響する可能性がある。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA