Sparse VideoGen2：セマンティックに応じた順列でスパース注意により動画生成を加速

arXiv cs.CV / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

動画生成に用いられる拡散トランスフォーマーは注意機構が二次的な計算量を持つためレイテンシが大きく、これがスパース注意による高速化の動機になる。
本論文では、従来のスパース注意手法が同一計算予算下で生成品質に十分到達できない理由として、重要トークンの選定が位置ベースでセマンティクスを反映できていないことと、重要トークンが分散してGPU上で無駄な計算が発生することを指摘している。
SVG2（Sparse VideoGen2）は学習不要の枠組みとして、k-meansによるセマンティック類似に基づくクラスタリングとトークン再配置（semantic-aware permutation）で、重要トークン同定の精度と計算の無駄を同時に改善する。
さらに、top-pの動的バジェット制御とカスタムカーネル実装を統合し、HunyuanVideoで最大2.30×、Wan 2.1で最大1.89×の速度向上を報告しつつ、PSNRはそれぞれ最大30、26を維持している。
著者は提示されたGitHubリポジトリでコードをオープンソース化しており、効率的な動画生成に取り組む他者が再現・導入しやすい体制になっている。