VecAttention：長いコンテキスト推論を加速するためのベクター単位のスパース注意

Abstract

長い文脈の動画理解と生成は、自己注意の二次的複雑性のために、Transformerベースの動画モデルにとって大きな計算上の課題となります。既存の疎注意手法は、効率化のために粗い粒度のパターンを用いていますが、通常は冗長な計算を伴い、性能も最適ではありません。本論文では、この問題に対処するために、動画モデルに対してより優れた精度と効率のトレードオフを実現する新しい枠組みである\textbf{VecAttention}を提案します。動画の注意マップは強い縦方向のベクトル疎パターンを示すことを観察し、さらに、この縦方向のベクトルパターンが既存の粗い粒度の疎パターンと比べて一貫してより良い精度-疎度のトレードオフを提供することを示します。この観察に基づき、VecAttentionは、メモリアクセスのオーバーヘッドを最小化する軽量な重要ベクトル選択と、ベクトル疎注意のための最適化されたカーネルによって、情報量のある縦方向のベクトルのみを動的に選択し処理します。動画理解（VideoMME、LongVideoBench、VCRBench）および生成（VBench）タスクに関する包括的な評価により、VecAttentionは完全注意に対して2.65

\times

の速度向上を達成し、また先行技術の疎注意手法に対して1.83

\times

の速度向上を達成しつつ、精度は完全注意と同等です。コードは https://github.com/anminliu/VecAttention で公開しています。

VecAttention：長いコンテキスト推論を加速するためのベクター単位のスパース注意

要点

Abstract

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer