分離型蒸留を用いたハイブリッド注意による長期ホライズンのストリーミング動画生成

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、スライディングウィンドウ注意のみでは改善が難しい「遠い時間的履歴の保持」を目的として、長期ホライズンのストリーミング動画生成を向上させるためのハイブリッド注意アーキテクチャ「ハイブリッド・フォーシング」を提案する。
  • 軽量な線形時間注意とコンパクトなキー・バリュー状態を組み合わせ、追い出されたトークンを吸収・保持できるようにする。また、冗長な短距離計算を削減するためにブロックスパースなローカル注意を用いる。
  • 著者らは、分離型蒸留(decoupled distillation)を提案する。まずは密な注意のもとで数ステップの蒸留を行い、その後、線形成分とブロックスパース成分に対して蒸留を有効化することで、学習を安定化させる。
  • 短尺および長尺の動画生成ベンチマークに対する実験では、最先端の性能が報告されている。具体的には、量子化や圧縮を行わずに、単一の NVIDIA H100 GPU 上で 29.5 FPS を達成し、制約のない 832×480 のリアルタイム生成が可能である。
  • コードおよび学習済みモデルは、リンクされた GitHub リポジトリを通じて提供されており、再現や手法のさらなる発展が可能である。