サンプルされたノイズ除去タイムステップにおける、完全計算を超えて:不均一キャッシングによる拡散ベース動画編集の高速化

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存の拡散による動画編集の高速化が主にノイズ除去タイムステップ間での特徴再利用に依存している一方で、DiTアーキテクチャ内の注意機構が時空間トークンに対して行う冗長な計算への対処が不十分であると主張している。
  • 学習不要の高速化フレームワークであるHetCacheを提案し、マスク付きの動画から動画への生成・編集(MV2V)における不均一性を活用する。具体的には、DiTトークンをコンテキスト群と生成群に分離する。
  • HetCacheは空間的な事前知識を用いて、選択した計算ステップにおいて生成トークンに対して最も強い相関と最も代表的な意味を持つコンテキストトークンのみを選択的にキャッシュする。
  • 編集の整合性を維持しつつ不要な注意(attention)演算を削減することで、一般に用いられる基盤モデルに対して約2.67×のレイテンシ高速化およびFLOPs削減を達成し、品質劣化はごくわずかである。