DynamicRad:長尺動画ディフュージョンのためのコンテンツ適応型スパース注意

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • DynamicRadは、静的マスクだけに依存することで長距離の重要情報を失う問題を避けるため、半径局所性の事前分布を用いたコンテンツ適応型スパース注意を長尺動画ディフュージョンに導入します。
  • 提案手法は、実行を二つのモードに分けるデュアルモード戦略を備えており、静的-ratioは高速化に、動的-thresholdは品質優先のフィルタリングに対応します。
  • オンライン探索によるランタイム負荷を避けるため、DynamicRadはオフラインのベイズ最適化パイプラインと意味的モーションルータを組み合わせ、プロンプト埋め込みから適切なスパース度レジームを最小限の追加コストで選択します。
  • HunyuanVideoおよびWan2.1-14Bでの実験では、1.7×〜2.5×の推論高速化と、80%以上の有効スパース性を実現したと報告されています。
  • さらにマスク対応LoRAにより長期(長ホライズン)の一貫性が向上し、コードはGitHubで公開されています。

概要: ビデオ拡散における自然な時空間エネルギー減衰を活用することで効率化への道が開ける一方、複雑なダイナミクスにおいて重要な長距離情報を失う危険があります。これに対処するため、
\textbf{DynamicRad} を提案します。これは、半径的な近傍という事前知識に基づき、適応的な選択を実現する統一的なスパース注意(sparse-attention)パラダイムです。DynamicRad は
\textbf{デュアルモード} 戦略を導入します。すなわち、速度最適化のための
\textit{static-ratio} と、品質優先のための
\textit{dynamic-threshold} です。オンライン探索に伴うオーバーヘッドなしで頑健性を確保するため、
\textbf{意味的モーションルータ} と組み合わせたオフラインのベイズ最適化(BO)パイプラインを統合します。この軽量な射影モジュールは、プロンプト埋め込みを
\textbf{最小限の実行時オーバーヘッド} で最適なスパース性のレジームへとマッピングします。オンライン・プロファイリング手法とは異なり、我々のオフラインBOは、物理ベースの代理タスクにおける注意再構成誤差(MSE)を最適化し、急速な収束を保証します。HunyuanVideo および Wan2.1-14B による実験では、DynamicRad が効率—品質のパレート境界を押し広げ、
\textbf{1.7\times--2.5\times の推論速度向上} と
\textbf{80
%超の有効スパース性} を達成することを示します。いくつかの長系列設定では、動的モードが密なベースラインに匹敵、あるいは上回ることさえあります。また、マスク対応 LoRA により長期的な整合性(ロングホライゾンのコヒーレンス)もさらに改善されます。コードは https://github.com/Adamlong3/DynamicRad で公開されています。