波に乗って:スムーズな動画生成のための精度割り当て型スパース注意

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ビデオ拡散トランスフォーマーにおける自己注意の高い計算コストに取り組み、既存のスパース注意手法が深刻な時間的フリッカーを引き起こし得ると主張する。
  • 精度割り当て型スパース注意(Precision-Allocated Sparse Attention, PASA)を提案する。PASAは、各タイムステップにおける加速のカーブリャ(曲率)に配慮したプロファイリングに基づき、計算予算を動的に配分する学習不要(training-free)の枠組みである。
  • PASAは、グローバルに均質化した推定ではなく、ハードウェアに整合したグループ化近似を用いることで効率を改善し、局所的な詳細を保ちながらスループットを最大化することを目指す。
  • さらに、注意ルーティングに確率的な選択バイアスを追加し、硬い境界を和らげることで、選択のオシレーションを防ぐ。これにより、局所的な計算飢餓とフリッカーにつながる問題を抑制する。
  • 主要な動画拡散モデルに対する実験では、推論の大幅な加速とともに、より滑らかで構造的に安定した動画生成シーケンスが報告されている。

要旨: ビデオ拡散トランスフォーマーは高精細な動画生成に革命をもたらしましたが、自注意(self-attention)による膨大な計算負担が課題です。疎な注意(sparse attention)は有望な高速化手段を提供しますが、既存手法では静的な疎パターンや決定論的なブロックルーティングが原因で、しばしば深刻な視覚的フリッカー(ちらつき)を誘発します。これらの制約を解決するために、本研究では高精度かつ時間的に滑らかな動画生成を目的とした、トレーニング不要の枠組み Precision-Allocated Sparse Attention(PASA)を提案します。まず、曲率を意識した動的予算割り当てメカニズムを実装します。タイムステップをまたいだ生成軌道の加速度をプロファイリングすることで、重要な意味的遷移のときだけに厳密に高精度処理を行うための正確な計算予算を、弾力的に配分します。次に、グローバルな一様化推定を、ハードウェアに整合したグループ化近似に置き換えます。これにより、最大の計算スループットを維持しつつ、微細な局所変動を確実に捉えることに成功します。最後に、注意ルーティング機構へ確率的な選択バイアスを組み込みます。この確率的アプローチは、硬直した選択境界を和らげ、選択の振動(オシレーション)を解消します。さらに、時間的フリッカーの原因となる局所的な計算飢餓を効果的に根絶します。主要な動画拡散モデルに対する大規模な評価により、PASA が推論を大幅に加速しながら、一貫して驚くほど滑らかで、かつ構造的に安定した動画列を生成することを示します。