広告

VecAttention:長いコンテキスト推論を加速するためのベクター単位のスパース注意

arXiv cs.CV / 2026/4/1

💬 オピニオン

要点

  • 本論文は、長尺コンテキストの動画モデルにおけるTransformer自己注意の計算負荷を削減することを目的とした、ベクター単位のスパース注意フレームワーク「VecAttention」を提案する。

Abstract

長い文脈の動画理解と生成は、自己注意の二次的複雑性のために、Transformerベースの動画モデルにとって大きな計算上の課題となります。既存の疎注意手法は、効率化のために粗い粒度のパターンを用いていますが、通常は冗長な計算を伴い、性能も最適ではありません。本論文では、この問題に対処するために、動画モデルに対してより優れた精度と効率のトレードオフを実現する新しい枠組みである\textbf{VecAttention}を提案します。動画の注意マップは強い縦方向のベクトル疎パターンを示すことを観察し、さらに、この縦方向のベクトルパターンが既存の粗い粒度の疎パターンと比べて一貫してより良い精度-疎度のトレードオフを提供することを示します。この観察に基づき、VecAttentionは、メモリアクセスのオーバーヘッドを最小化する軽量な重要ベクトル選択と、ベクトル疎注意のための最適化されたカーネルによって、情報量のある縦方向のベクトルのみを動的に選択し処理します。動画理解(VideoMME、LongVideoBench、VCRBench)および生成(VBench)タスクに関する包括的な評価により、VecAttentionは完全注意に対して2.65\timesの速度向上を達成し、また先行技術の疎注意手法に対して1.83\timesの速度向上を達成しつつ、精度は完全注意と同等です。コードは https://github.com/anminliu/VecAttention で公開しています。

広告