FreqFormer:適応的スペクトルルーティングによる階層型周波数領域アテンションで長系列ビデオ拡散トランスフォーマを高速化

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • FreqFormerは、長系列ビデオ拡散トランスフォーマの二次的な実行時間とメモリコストを、周波数に応じた不均一(ヘテロ)アテンションで置き換えることで解決しようとします。
  • トークン特徴をスペクトル帯域に分割し、帯域ごとに異なる演算子を適用します:低周波は密なグローバル注意、中周波は構造化されたブロックスパース注意、高周波はスライディングウィンドウのローカル注意です。
  • 軽量なスペクトル・ルーティングネットワークが、層の統計量と拡散タイムステップに基づいてヘッド配分を動的に決め、ノイズ除去の進行に合わせて計算を大域構造から細部へとシフトします。
  • さらに、融合GPU実行プランや複雑性モデルを含み、64K〜1Mトークンのシミュレーションで、密な注意(dense attention)に比べて注意のFLOPs推定とKV関連メモリ転送が大幅に削減されることを示します。
  • 理論的解釈(直交分解の見方など)やシステム分析(スループット、算術強度、メモリ転送、スケーリング)も提示し、長尺ビデオ拡散トランスフォーマにとって実用的な方向性だと主張しています。

要旨: 長い系列の動画拡散トランスフォーマーは、二次の自己注意コストによって支配されるため、非常に長いトークン系列では計算時間とメモリを大きく消費します。最も効率的な注意(attention)手法の多くは、どこでも同一の近似を用いますが、動画の特徴はスペクトル的に構造化されています。すなわち、低周波は大域的なレイアウトと粗い動きを担い、高周波は質感や細かなディテールを担います。私たちは周波数を意識した不均一(heterogeneous)注意の枠組みである FreqFormer を提案します。トークン特徴はスペクトル帯域に分割され、それぞれ異なる演算子を適用します。圧縮した低周波コンテンツに対しては密な大域注意、 中間周波には構造化されたブロック・スパース注意、高周波にはスライディングウィンドウの局所注意です。軽量なスペクトル・ルーティング・ネットワークが、層の統計と拡散のタイムステップを用いてヘッドを帯域間に割り当て、ノイズ除去の初期には大域構造に計算を寄せ、後半にはディテールへと計算をシフトします。帯域間の要約トークンにより、安価な残差交換を実現します。FreqFormer は、密・スパース・局所の各ブランチを同時にスケジューリングする融合GPU実行計画(fused GPU execution plan)と組み合わせ、カーネルの起動回数とメモリ転送を削減します。計算量の一貫したモデル、近似に対する正規直交分解(orthonormal-decomposition)の観点、およびシミュレーションに基づくシステム指標(スループット、算術強度、メモリ転送、所要時間のスケーリング)を提示します。64Kから1Mトークンまでのシミュレーションでは、FreqFormer は密な注意に比べて、見積もり上の注意FLOPs と KV 関連のメモリ転送を大幅に削減しつつ、ハードウェアに適したパターンを維持します。これは、スペクトル的に構造化された不均一注意を長い動画拡散トランスフォーマーにおける実用的な方向性として示すものです。