EFlow：効率的なソリューションフローによる、スクラッチからの高速な少数ステップ・動画生成の学習

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

EFlowは、動画拡散トランスフォーマーのボトルネックである「注意（attention）の計算コスト」と「反復サンプリング手数」を同時に緩和する、少数ステップで学習・推論する枠組みを提案しています。
サンプリング手数削減のために、時刻tのノイズ状態から時刻sを写像する「solution-flow objective」を用い、動画スケールでも計算可能かつ高品質にするための工夫が示されています。
効率性と安定性のために、ランダムなトークンドロップに強い「Gated Local-Global Attention（トークンを落とせるハイブリッド注意ブロック）」を導入しています。
学習レシピとしては、ガイダンス目標を安価な「弱い経路（weak path）」に置き換える「Path-Drop Guided training」と、極小ステップでも忠実性を保つ「Mean-Velocity Additivity regularizer」を組み合わせています。
提案により、従来のsolution-flowに対して学習スループット最大2.5倍、標準的な反復モデル比で推論レイテンシを45.3倍低減しつつ、Kineticsや大規模テキスト・トゥ・ビデオで競争力のある性能を目指すとしています。

要旨: 動画拡散トランスフォーマーのスケーリングは、本質的に2つの相互に増幅し合うコストによってボトルネック化されます。それは、ステップごとの注意機構における高価な二次計算量と、反復的なサンプリングステップです。本研究では、これらのボトルネックを同時に解決する効率的な少ステップ学習フレームワークであるEFlowを提案します。サンプリングステップ数を削減するために、時刻tのノイズ状態から時刻sへの写像を学習する関数を学ぶ、ソリューションフロー目的に基づきます。しかし、この定式化を動画スケールで計算可能にし、高品質に保つには、2つの補完的な革新が必要です。第一に、Gated Local-Global Attention（ゲート付きローカル・グローバル注意）を提案します。これは、トークンをドロップ可能なハイブリッドブロックであり、効率的で表現力があり、攻撃的なランダム・トークンドロッピング下でも非常に安定性が高く、ステップごとの計算を大幅に削減します。第二に、効率的な少ステップ学習レシピを開発します。高価なガイダンス対象を、計算コストの安い弱いパスで置き換えるために、Path-Drop Guided学習を提案します。さらに、非常に低いステップ数でも高い忠実度を保証するために、Mean-Velocity Additivity 正則化を追加します。これらにより、我々のEFlowは、実用的なスクラッチからの学習パイプラインを可能にし、標準的なソリューションフローに比べて最大2.5倍の学習スループットを達成し、また、反復型モデルに比べて推論レイテンシを標準で45.3分の1まで低減しつつ、Kineticsおよび大規模なテキスト対動画データセットで競争力のある性能を示します。