オフラインの層ごとのスパース性プロファイリングとオンラインの双方向共クラスタリングによる高速動画生成のためのトレーニング不要スパースアテンション

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、SVOO というトレーニング不要のスパースアテンションフレームワークを提案し、オフラインの層ごとのスパース性プロファイリングとオンラインのブロック単位スパースアテンションを双方向共クラスタリングによって分離する。
  • アテンションのスパース性は入力依存性が小さい内在的な層特性であり、層ごとのプルーニングレベルをオフラインで設定できると主張する。
  • SVOO は高品質と高速化の優れたトレードオフを実現し、Wan2.1 上で 7 つの動画生成モデルに対して最大 1.93 倍の速度アップを達成しつつ、PSNR を最大で 29 dB まで維持する。
  • 本手法は、ブロック分割における層の異質性とクエリ-キー結合を考慮することで従来の制約を克服し、最先端のスパースアテンション手法を上回る。

要約: Diffusion Transformers (DiTs) は高品質な動画生成を実現しますが、密な3Dアテンションのため推論コストが高くなるという課題があり、効率を改善するためにスパースアテンション技術の開発へとつながっています。 しかし、動画生成における既存の訓練不要なスパースアテンション手法には、まだ2つの未解決の制限があります。アテンション剪定における層の異質性を無視することと、ブロック分割におけるクエリとキーの結合を無視することで、品質と高速化のより良いトレードオフを妨げています。 この点に着想を得て、SVOO を提案します。訓練不要なスパースアテンションフレームワークで、オフラインの層別スパース性プロファイリングとオンラインの双方向共クラスタリングによって高速な動画生成を実現します。 具体的には、SVOO は二段階のパラダイムを採用します: (i) 各層ごとの固有の剪定レベルを導くためのオフライン層別感度プロファイリング、 (ii) 新規の双方向共クラスタリングアルゴリズムによるオンラインのブロック単位スパースアテンション。 広く用いられる7つの動画生成モデルを対象とした大規模な実験により、SVOO が最先端の手法に対して優れた品質と速度のトレードオフを達成し、Wan2.1で最大 1.93\times のスピードアップを実現しつつ、PSNR は最大で 29 dB を維持します。