要旨: 本論文では、自己回帰型ビデオ拡散モデル向けの訓練・推論パラダイムであるSparse Forcing(スパース・フォーシング)を提案し、長期ホライズン生成の品質を向上させつつ、デコード遅延を削減する方法を示します。Sparse Forcingは、自己回帰型拡散のロールアウトにおける経験的な観察に動機づけられています。すなわち、注意(attention)は、目立つ視覚ブロックの持続的な部分集合に集中し、その結果としてKVキャッシュ内に暗黙の時空間メモリが形成され、さらにスライディングウィンドウ内では局所的に構造化されたブロックスパース(block-sparse)なパターンを示す、という観察です。この観察に基づき、持続的なブロックを圧縮し、保持し、更新するための訓練可能なネイティブなスパース機構を提案します。そして、各ローカルウィンドウ内の計算を、動的に選択されるローカル近傍に制限します。提案手法を、訓練と推論の双方において大規模に実用化するために、さらに、高効率GPUカーネルであるPersistent Block-Sparse Attention(PBSA)を提案します。これは、低遅延かつメモリ効率の高いデコードのために、スパース attention とメモリ更新を高速化します。実験の結果、Sparse Forcingは、5秒のテキストからビデオへの生成においてSelf-Forcingに対してVBenchスコアを+0.26改善しながら、デコード速度を1.11〜1.17倍高速化し、ピーク時のKVキャッシュのフットプリントを42%削減することが示されました。これらの効果は、より長いホライズンのロールアウトでより顕著であり、+0.68および+2.74のVBench改善を伴う視覚品質の向上が得られます。また、20秒および1分の生成において、それぞれ1.22倍および1.27倍の速度向上が示されました。
Sparse Forcing:リアルタイム向け自己回帰拡散動画生成のためのネイティブ学習可能スパース注意
arXiv cs.CV / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- Sparse Forcingは、自己回帰型拡散動画生成に対する「学習と推論」のための手法として提案されており、長い時間長での生成品質を高めつつデコード遅延を削減します。
- この手法は、自己回帰拡散ロールアウト中の注意が、目立つ視覚ブロックの“持続的な部分集合”に繰り返し集中する、という観測に基づいています。これによりKVキャッシュ上で暗黙の時空間メモリが形成されるとされています。
- Sparse Forcingでは、持続的ブロックの圧縮・保持・更新を行える学習可能なネイティブ・スパース化メカニズムを導入し、さらに計算はスライディングウィンドウ内の動的に選ばれるローカル近傍に制限します。
- スケール性のためにGPU上では、Persistent Block-Sparse Attention(PBSA)という効率的GPUカーネルも提案されており、疎な注意計算とKVキャッシュ更新を高速化して低遅延デコードを実現します。
- 実験では、5秒およびより長いテキストから動画生成でVBenchの改善(5秒でSelf-Forcingに対して+0.26)と高速化(約1.11–1.17x)、ピークKVキャッシュ使用量の削減(42%減)が示され、長い時間長ほど効果が大きいと報告されています。


