対角蒸留によるストリーミング自己回帰型動画生成

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 大規模な事前学習済み拡散モデルは動画の品質を向上させるが、計算負荷が高くリアルタイムストリーミングには適していない。
  • 自己回帰型動画モデルは効率的な逐次フレーム生成機構を提供するが、画質と計算量のバランスに課題がある。
  • 既存の動画拡散蒸留手法は画像ベースの技術を適用しており、時間的依存性を無視した結果、動画においてパフォーマンスが低下している。
  • 提案する対角蒸留法は時間的文脈の利用を改善し、異なるノイズ除去ステップ数を用いた非対称生成戦略で露出バイアスに対処する。
  • 本手法は5秒動画を最大31FPSで生成し、277.3倍の高速化を達成しつつ、暗黙的なオプティカルフローのモデリングにより動きの品質を維持する。

計算機科学 > コンピュータビジョンとパターン認識

arXiv:2603.09488 (cs)
[2026年3月10日 提出]

題目:対角蒸留によるストリーミング自己回帰型ビデオ生成

Jinxiu Liu ほか5名の著者による「対角蒸留によるストリーミング自己回帰型ビデオ生成」という題目の論文のPDFを表示
PDFを表示 HTML(実験的)
要旨:大規模に事前学習された拡散モデルは生成動画の品質を大幅に向上させたが、それらをリアルタイムのストリーミングで用いることは依然として限られている。自己回帰モデルは逐次フレーム合成のための自然な枠組みを提供する一方で、高い忠実度を達成するには大きな計算を要する。拡散蒸留は、これらのモデルを効率的な少ステップ版へと圧縮できるが、既存の動画蒸留アプローチは大部分が画像固有の手法を流用して時間的な依存関係を無視している。こうした手法は画像生成ではしばしば優れた性能を発揮するものの、動画合成では十分に性能が出ず、動きの一貫性が低下すること、長い系列にわたる誤差の蓄積、そして遅延と品質のトレードオフが見られる。これらの制限の原因となる2つの要因を特定する。すなわち、ステップ削減の際に時間的文脈を十分に活用できていないこと、さらに次チャンク予測において後続のノイズレベルを暗黙に予測してしまうこと(すなわち露出バイアス)である。これらの課題に対処するために、既存手法とは直交する形で動作し、動画チャンク間およびデノイズステップ間で時間情報をより適切に活用する対角蒸留(Diagonal Distillation)を提案する。我々のアプローチの中核は非対称な生成戦略であり、序盤はより多くのステップを用い、終盤はより少ないステップを用いる。この設計により、後続のチャンクは、十分に処理された初期チャンクから豊かな外観情報を継承できる一方で、部分的にデノイズされたチャンクを後続合成の条件入力として利用できる。チャンク生成中の後続ノイズレベルの暗黙予測を、実際の推論条件に整合させることで、誤差の伝播を抑え、長距離系列での過度な彩度の増加(oversaturation)を低減する。さらに、厳しいステップ制約下でも動きの品質を保つために、暗黙の光学フロー(optical flow)モデリングを組み込む。我々の手法は、2.61秒(最大31 FPS)で5秒の動画を生成し、蒸留していないモデルに対して277.3倍の高速化を実現する。
分野: コンピュータビジョンとパターン認識 (cs.CV)
引用: arXiv:2603.09488 [cs.CV]
  (または、このバージョンでは arXiv:2603.09488v1 [cs.CV])
  https://doi.org/10.48550/arXiv.2603.09488
詳細を学ぶにはフォーカス
DataCite による arXiv 発行 DOI

提出履歴

提出者: Xuanming Liu [メールを表示]
[v1] 2026年3月10日(火) 10:45:24 UTC (12,315 KB)
全文リンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.CV
返却形式: {"translated": "翻訳されたHTML"}
次の方法で閲覧:
cs
BibTeX 引用をエクスポート 読み込み中...

BibTeX 形式の引用

×
提供データ:

ブックマーク

BibSonomy ロゴ Reddit ロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え
書誌エクスプローラー (このエクスプローラーとは?)
Connected Papers 切り替え
Connected Papers (Connected Papers とは?)
Litmaps 切り替え
Litmaps (Litmaps とは?)
scite.ai 切り替え
scite Smart Citations (Smart Citations とは?)
コード、データ、メディア

本記事に関連付けられたコード、データ、メディア

alphaXiv 切り替え
alphaXiv (alphaXiv とは?)
返却形式: {"translated": "翻訳されたHTML"}
コードへのリンク トグル
論文向け CatalyzeX コードファインダー (CatalyzeX とは何ですか?)
DagsHub トグル
GotitPub トグル
Huggingface トグル
コードへのリンク トグル
ScienceCast トグル
デモ

デモ

Replicate トグル
Spaces トグル
Hugging Face Spaces (Spaces とは何ですか?)
Spaces トグル
関連論文

レコメンダーおよび検索ツール

Influence Flower へのリンク
Core recommender トグル
CORE Recommender (CORE とは?)
About arXivLabs

arXivLabs:コミュニティの協力者とともに行う実験的プロジェクト

arXivLabs は、協力者が当社の Web サイト上で直接新しい arXiv の機能を開発し、共有できるようにするフレームワークです。

arXivLabs を使って活動する個人および組織は、公開性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを大切にしてきました。arXiv はこれらの価値観に取り組んでおり、それに従うパートナーとのみ連携します。

arXiv のコミュニティに価値を追加するプロジェクトのアイデアはありますか? arXivLabs について詳しく知る