計算機科学 > コンピュータビジョンとパターン認識
arXiv:2603.09488 (cs)
[2026年3月10日 提出]
題目:対角蒸留によるストリーミング自己回帰型ビデオ生成
Jinxiu Liu ほか5名の著者による「対角蒸留によるストリーミング自己回帰型ビデオ生成」という題目の論文のPDFを表示
PDFを表示
HTML(実験的)
要旨:大規模に事前学習された拡散モデルは生成動画の品質を大幅に向上させたが、それらをリアルタイムのストリーミングで用いることは依然として限られている。自己回帰モデルは逐次フレーム合成のための自然な枠組みを提供する一方で、高い忠実度を達成するには大きな計算を要する。拡散蒸留は、これらのモデルを効率的な少ステップ版へと圧縮できるが、既存の動画蒸留アプローチは大部分が画像固有の手法を流用して時間的な依存関係を無視している。こうした手法は画像生成ではしばしば優れた性能を発揮するものの、動画合成では十分に性能が出ず、動きの一貫性が低下すること、長い系列にわたる誤差の蓄積、そして遅延と品質のトレードオフが見られる。これらの制限の原因となる2つの要因を特定する。すなわち、ステップ削減の際に時間的文脈を十分に活用できていないこと、さらに次チャンク予測において後続のノイズレベルを暗黙に予測してしまうこと(すなわち露出バイアス)である。これらの課題に対処するために、既存手法とは直交する形で動作し、動画チャンク間およびデノイズステップ間で時間情報をより適切に活用する対角蒸留(Diagonal Distillation)を提案する。我々のアプローチの中核は非対称な生成戦略であり、序盤はより多くのステップを用い、終盤はより少ないステップを用いる。この設計により、後続のチャンクは、十分に処理された初期チャンクから豊かな外観情報を継承できる一方で、部分的にデノイズされたチャンクを後続合成の条件入力として利用できる。チャンク生成中の後続ノイズレベルの暗黙予測を、実際の推論条件に整合させることで、誤差の伝播を抑え、長距離系列での過度な彩度の増加(oversaturation)を低減する。さらに、厳しいステップ制約下でも動きの品質を保つために、暗黙の光学フロー(optical flow)モデリングを組み込む。我々の手法は、2.61秒(最大31 FPS)で5秒の動画を生成し、蒸留していないモデルに対して277.3倍の高速化を実現する。
| 分野: | コンピュータビジョンとパターン認識 (cs.CV) |
| 引用: | arXiv:2603.09488 [cs.CV] |
| (または、このバージョンでは arXiv:2603.09488v1 [cs.CV]) | |
| https://doi.org/10.48550/arXiv.2603.09488
詳細を学ぶにはフォーカス
DataCite による arXiv 発行 DOI
|
書誌ツール
コード、データ、メディア
返却形式: {"translated": "翻訳されたHTML"}
デモ
関連論文
About arXivLabs
書誌および引用ツール
書誌エクスプローラー切り替え
書誌エクスプローラー (このエクスプローラーとは?)
Connected Papers 切り替え
Connected Papers (Connected Papers とは?)
Litmaps 切り替え
Litmaps (Litmaps とは?)
scite.ai 切り替え
scite Smart Citations (Smart Citations とは?)
本記事に関連付けられたコード、データ、メディア
alphaXiv 切り替え
alphaXiv (alphaXiv とは?)
コードへのリンク トグル
論文向け CatalyzeX コードファインダー (CatalyzeX とは何ですか?)
DagsHub トグル
DagsHub (DagsHub とは何ですか?)
GotitPub トグル
Gotit.pub (GotitPub とは何ですか?)
Huggingface トグル
Hugging Face (Huggingface とは何ですか?)
コードへのリンク トグル
Papers with Code (Papers with Code とは何ですか?)
ScienceCast トグル
ScienceCast (ScienceCast とは何ですか?)
デモ
Replicate トグル
Replicate (Replicate とは何ですか?)
Spaces トグル
Hugging Face Spaces (Spaces とは何ですか?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは何ですか?)
レコメンダーおよび検索ツール
Influence Flower へのリンク
Influence Flower (Influence Flower とは何ですか?)
Core recommender トグル
CORE Recommender (CORE とは?)
arXivLabs:コミュニティの協力者とともに行う実験的プロジェクト
arXivLabs は、協力者が当社の Web サイト上で直接新しい arXiv の機能を開発し、共有できるようにするフレームワークです。
arXivLabs を使って活動する個人および組織は、公開性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを大切にしてきました。arXiv はこれらの価値観に取り組んでおり、それに従うパートナーとのみ連携します。
arXiv のコミュニティに価値を追加するプロジェクトのアイデアはありますか? arXivLabs について詳しく知る。