動画圧縮のためのスパース情報伝送を活用した効率的な拡散モデル

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Diff-SIT は、超低ビットレートで知覚品質と時間的一貫性を最大化するよう設計された拡散ベースの動画圧縮フレームワークです。
Sparse Temporal Encoding Module (STEM) を導入し、原始フレーム列を情報量豊富な中間列へとスパースに符号化することで、ビットレートを大幅に節約します。
Frame Type Embedder のガイダンスを用いて中間列を処理し、異なるフレームタイプに適応した再構成を実現する One-Step Video Diffusion with Frame Type Embedder（ODFTE）を導入します。
本手法は複数のデータセットにおいて最先端の知覚品質と時間的一貫性を達成しており、著者らは GitHub でコードを公開しています。

要旨: 映像圧縮は、最小限のビットレートで再構成品質を最大化することを目的としています。標準的な歪み指標を超えて、知覚品質と時間的一貫性も重要です。しかし、超低ビットレートでは、従来のエンドツーエンド圧縮モデルは知覚品質の低いぼやけた画像を生み出す傾向があります。さらに、既存の生成型圧縮手法はしばしばビデオフレームを独立して扱い、時間的一貫性と効率性に限界を示します。これらの課題に対処するため、Sparse Information Transmission（Diff-SIT）を用いた Efficient Video Diffusion（Diff-SIT）を提案します。これは、Sparse Temporal Encoding Module（STEM）と One-Step Video Diffusion with Frame Type Embedder（ODFTE）で構成されます。STEMは元のフレーム列を情報量豊かな中間列へとまばらに符号化し、ビットレートの大幅な節約を実現します。その後、ODFTEはこの中間列を全体として処理し、時間的相関を活用します。この過程で、提案する Frame Type Embedder（FTE）は、フレームタイプに応じた適応的な再構成を拡散モデルに指示し、全体的な品質を最適化します。複数のデータセットに対する広範な実験により、Diff-SIT は知覚品質と時間的一貫性の新たな最先端を確立していることが示されており、特に難易度の高い超低ビットレート領域で顕著です。コードは https://github.com/MingdeZhou/Diff-SIT で公開されています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

動画圧縮のためのスパース情報伝送を活用した効率的な拡散モデル

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer