要旨: 自己回帰(AR)ビデオ拡散モデルは長尺の動画生成を可能にしますが、反復される多段階のノイズ除去により依然として高コストです。既存の学習不要(training-free)な高速化手法は、キャッシュするか再計算するかという二値の判断に依存しており、直接再利用が粗すぎる一方で、全面的な再計算は不要な中間的なケースを見落としています。さらに、非同期ARスケジュールでは共同生成されるフレームに異なるノイズレベルが割り当てられるにもかかわらず、既存の手法は有効な区間全体を一様に処理します。ARに特有のこれらの非効率性に対処するために、本稿ではARビデオ拡散を効率化する学習不要フレームワークであるSCOPEを提案します。SCOPEは、キャッシュ・予測・再計算の3モードのスケジューラを導入します。ここで、ノイズレベルに基づくテイラー外挿による予測が、再利用と再計算の間に生じるギャップを埋めます。さらに、誤差伝播の解析に裏打ちされた明示的な安定性制御により、予測の挙動を制御します。また、選択的計算を導入し、実行をアクティブなフレーム区間に限定します。MAGI-1およびSkyReels-V2において、SCOPEは元の出力と同等の品質を維持しつつ最大4.73倍の高速化を達成し、すべての学習不要ベースラインを上回ります。
すべてのフレームが完全計算に値するわけではない:選択的計算と予測的外挿による自己回帰型ビデオ生成の高速化
arXiv cs.CV / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、フレーム間で無駄なノイズ除去処理を削減することで、自己回帰(AR)ビデオ拡散を高速化する訓練不要のフレームワークSCOPEを提案する。
- キャッシュ・予測・再計算の三モーダルなスケジューラを用いることで、二値的な再利用/再計算の判断が粗すぎる中間状況にも対応できる。
- 予測はノイズレベルのテイラー外挿により行い、誤差伝播の解析に基づく安定性制御も含めている。
- SCOPEは選択的計算として、アクティブなフレーム区間に処理を限定し、妥当な全範囲にわたって一様に処理することを回避する。
- MAGI-1およびSkyReels-V2での実験により、出力品質は元の手法と同等でありつつ、最大4.73×の高速化が示され、従来の訓練不要ベースラインを上回る。
