対角蒸留によるストリーミング自己回帰型動画生成

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

大規模な事前学習済み拡散モデルは動画の品質を向上させるが、計算負荷が高くリアルタイムストリーミングには適していない。
自己回帰型動画モデルは効率的な逐次フレーム生成機構を提供するが、画質と計算量のバランスに課題がある。
既存の動画拡散蒸留手法は画像ベースの技術を適用しており、時間的依存性を無視した結果、動画においてパフォーマンスが低下している。
提案する対角蒸留法は時間的文脈の利用を改善し、異なるノイズ除去ステップ数を用いた非対称生成戦略で露出バイアスに対処する。
本手法は5秒動画を最大31FPSで生成し、277.3倍の高速化を達成しつつ、暗黙的なオプティカルフローのモデリングにより動きの品質を維持する。

計算機科学 > コンピュータビジョンとパターン認識

arXiv:2603.09488 (cs)

[2026年3月10日提出]

題目:対角蒸留によるストリーミング自己回帰型ビデオ生成

著者:Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu

Jinxiu Liu ほか5名の著者による「対角蒸留によるストリーミング自己回帰型ビデオ生成」という題目の論文のPDFを表示

PDFを表示 HTML（実験的）

要旨:大規模に事前学習された拡散モデルは生成動画の品質を大幅に向上させたが、それらをリアルタイムのストリーミングで用いることは依然として限られている。自己回帰モデルは逐次フレーム合成のための自然な枠組みを提供する一方で、高い忠実度を達成するには大きな計算を要する。拡散蒸留は、これらのモデルを効率的な少ステップ版へと圧縮できるが、既存の動画蒸留アプローチは大部分が画像固有の手法を流用して時間的な依存関係を無視している。こうした手法は画像生成ではしばしば優れた性能を発揮するものの、動画合成では十分に性能が出ず、動きの一貫性が低下すること、長い系列にわたる誤差の蓄積、そして遅延と品質のトレードオフが見られる。これらの制限の原因となる2つの要因を特定する。すなわち、ステップ削減の際に時間的文脈を十分に活用できていないこと、さらに次チャンク予測において後続のノイズレベルを暗黙に予測してしまうこと（すなわち露出バイアス）である。これらの課題に対処するために、既存手法とは直交する形で動作し、動画チャンク間およびデノイズステップ間で時間情報をより適切に活用する対角蒸留（Diagonal Distillation）を提案する。我々のアプローチの中核は非対称な生成戦略であり、序盤はより多くのステップを用い、終盤はより少ないステップを用いる。この設計により、後続のチャンクは、十分に処理された初期チャンクから豊かな外観情報を継承できる一方で、部分的にデノイズされたチャンクを後続合成の条件入力として利用できる。チャンク生成中の後続ノイズレベルの暗黙予測を、実際の推論条件に整合させることで、誤差の伝播を抑え、長距離系列での過度な彩度の増加（oversaturation）を低減する。さらに、厳しいステップ制約下でも動きの品質を保つために、暗黙の光学フロー（optical flow）モデリングを組み込む。我々の手法は、2.61秒（最大31 FPS）で5秒の動画を生成し、蒸留していないモデルに対して277.3倍の高速化を実現する。

分野:	コンピュータビジョンとパターン認識 (cs.CV)
引用:	arXiv:2603.09488 [cs.CV]
	(または、このバージョンでは arXiv:2603.09488v1 [cs.CV])
	https://doi.org/10.48550/arXiv.2603.09488 詳細を学ぶにはフォーカス DataCite による arXiv 発行 DOI

提出履歴

提出者: Xuanming Liu [メールを表示]
[v1] 2026年3月10日(火) 10:45:24 UTC (12,315 KB)

全文リンク:

論文へのアクセス:

Jinxiu Liu ほか5名の著者による「対角蒸留によるストリーミング自己回帰型ビデオ生成」という題目の論文のPDFを表示

PDFを表示
HTML（実験的）
TeX ソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.CV

返却形式: {"translated": "翻訳されたHTML"}

< 前へ | 次へ >

新着 | 最近 | 2026-03

次の方法で閲覧：

参考文献 & 引用

BibTeX 引用をエクスポート読み込み中...

BibTeX 形式の引用

提供データ：

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え

書誌エクスプローラー (このエクスプローラーとは？)

Connected Papers 切り替え

Connected Papers (Connected Papers とは？)

Litmaps 切り替え

Litmaps (Litmaps とは？)

scite.ai 切り替え

scite Smart Citations (Smart Citations とは？)

コード、データ、メディア

本記事に関連付けられたコード、データ、メディア

alphaXiv 切り替え

alphaXiv (alphaXiv とは？)

返却形式: {"translated": "翻訳されたHTML"}

コードへのリンクトグル

論文向け CatalyzeX コードファインダー (CatalyzeX とは何ですか？)

DagsHub トグル

DagsHub (DagsHub とは何ですか？)

GotitPub トグル

Gotit.pub (GotitPub とは何ですか？)

Huggingface トグル

Hugging Face (Huggingface とは何ですか？)

コードへのリンクトグル

Papers with Code (Papers with Code とは何ですか？)

ScienceCast トグル

ScienceCast (ScienceCast とは何ですか？)

デモ

Replicate トグル

Replicate (Replicate とは何ですか？)

Spaces トグル

Hugging Face Spaces (Spaces とは何ですか？)

Spaces トグル

TXYZ.AI (TXYZ.AI とは何ですか？)

レコメンダーおよび検索ツール

Influence Flower へのリンク

Influence Flower (Influence Flower とは何ですか？)

Core recommender トグル

CORE Recommender (CORE とは？)

著者
掲載先
所属機関
トピック

About arXivLabs

arXivLabs：コミュニティの協力者とともに行う実験的プロジェクト

arXivLabs は、協力者が当社の Web サイト上で直接新しい arXiv の機能を開発し、共有できるようにするフレームワークです。

arXivLabs を使って活動する個人および組織は、公開性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これを大切にしてきました。arXiv はこれらの価値観に取り組んでおり、それに従うパートナーとのみ連携します。

arXiv のコミュニティに価値を追加するプロジェクトのアイデアはありますか？ arXivLabs について詳しく知る。

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

Dev.to

AIにおけるMCPを解説（実例付き）

Dev.to

対角蒸留によるストリーミング自己回帰型動画生成

要点

計算機科学 > コンピュータビジョンとパターン認識

題目:対角蒸留によるストリーミング自己回帰型ビデオ生成

提出履歴

論文へのアクセス:

参考文献 & 引用

BibTeX 形式の引用

ブックマーク

書誌および引用ツール

本記事に関連付けられたコード、データ、メディア

デモ

レコメンダーおよび検索ツール

arXivLabs：コミュニティの協力者とともに行う実験的プロジェクト

関連記事

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

AIにおけるMCPを解説（実例付き）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer