EFlow: Fast Few-Step Video Generator Training from Scratch via Efficient Solution Flow
arXiv cs.CV / 3/31/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- EFlowは、動画拡散トランスフォーマーのボトルネックである「注意(attention)の計算コスト」と「反復サンプリング手数」を同時に緩和する、少数ステップで学習・推論する枠組みを提案しています。
- サンプリング手数削減のために、時刻tのノイズ状態から時刻sを写像する「solution-flow objective」を用い、動画スケールでも計算可能かつ高品質にするための工夫が示されています。
- 効率性と安定性のために、ランダムなトークンドロップに強い「Gated Local-Global Attention(トークンを落とせるハイブリッド注意ブロック)」を導入しています。
- 学習レシピとしては、ガイダンス目標を安価な「弱い経路(weak path)」に置き換える「Path-Drop Guided training」と、極小ステップでも忠実性を保つ「Mean-Velocity Additivity regularizer」を組み合わせています。
- 提案により、従来のsolution-flowに対して学習スループット最大2.5倍、標準的な反復モデル比で推論レイテンシを45.3倍低減しつつ、Kineticsや大規模テキスト・トゥ・ビデオで競争力のある性能を目指すとしています。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.



