オフラインの層ごとのスパース性プロファイリングとオンラインの双方向共クラスタリングによる高速動画生成のためのトレーニング不要スパースアテンション

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、SVOO というトレーニング不要のスパースアテンションフレームワークを提案し、オフラインの層ごとのスパース性プロファイリングとオンラインのブロック単位スパースアテンションを双方向共クラスタリングによって分離する。
アテンションのスパース性は入力依存性が小さい内在的な層特性であり、層ごとのプルーニングレベルをオフラインで設定できると主張する。
SVOO は高品質と高速化の優れたトレードオフを実現し、Wan2.1 上で 7 つの動画生成モデルに対して最大 1.93 倍の速度アップを達成しつつ、PSNR を最大で 29 dB まで維持する。
本手法は、ブロック分割における層の異質性とクエリ-キー結合を考慮することで従来の制約を克服し、最先端のスパースアテンション手法を上回る。

要約: Diffusion Transformers (DiTs) は高品質な動画生成を実現しますが、密な3Dアテンションのため推論コストが高くなるという課題があり、効率を改善するためにスパースアテンション技術の開発へとつながっています。しかし、動画生成における既存の訓練不要なスパースアテンション手法には、まだ2つの未解決の制限があります。アテンション剪定における層の異質性を無視することと、ブロック分割におけるクエリとキーの結合を無視することで、品質と高速化のより良いトレードオフを妨げています。この点に着想を得て、SVOO を提案します。訓練不要なスパースアテンションフレームワークで、オフラインの層別スパース性プロファイリングとオンラインの双方向共クラスタリングによって高速な動画生成を実現します。具体的には、SVOO は二段階のパラダイムを採用します: (i) 各層ごとの固有の剪定レベルを導くためのオフライン層別感度プロファイリング、 (ii) 新規の双方向共クラスタリングアルゴリズムによるオンラインのブロック単位スパースアテンション。広く用いられる7つの動画生成モデルを対象とした大規模な実験により、SVOO が最先端の手法に対して優れた品質と速度のトレードオフを達成し、Wan2.1で最大 $1.93\times$ のスピードアップを実現しつつ、PSNR は最大で 29 dB を維持します。

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

note

Sakana Chatが登場しました

note

【はじめてのnote】自己紹介:AIに翻弄されてお店を崩壊させかけた夫の妻です。

note

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

note

AIが「手話でニュースを伝える時代」へ― 情報の壁が壊れ始めた瞬間

note

オフラインの層ごとのスパース性プロファイリングとオンラインの双方向共クラスタリングによる高速動画生成のためのトレーニング不要スパースアテンション

要点

関連記事

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

Sakana Chatが登場しました

【はじめてのnote】自己紹介:AIに翻弄されてお店を崩壊させかけた夫の妻です。

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

AIが「手話でニュースを伝える時代」へ― 情報の壁が壊れ始めた瞬間

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

​AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

Sakana Chatが登場しました

【はじめてのnote】自己紹介:AIに翻弄されてお店を崩壊させかけた夫の妻です。

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

AIが「手話でニュースを伝える時代」へ― 情報の壁が壊れ始めた瞬間

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ