VFA: グローバル最大値の事前計算によるFlash Attentionにおけるベクトル演算の負荷軽減

arXiv cs.LG / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

FlashAttentionのスタイルによるオンラインsoftmaxはメモリ効率に優れていますが、行max/行和（rowmax/rowsum）やリスケーリングの連鎖といった非行列積（non-matmul）の削減・更新手順が、ベクトル/SIMDのボトルネックとなり得て、高いアクセラレータスループットではレイテンシを支配してしまうことがあります。
本論文では、最大値更新の実行コストを下げるVector Relieved Flash Attention（VFA）を提案します。具体的には、maxをキー・ブロックの近似で初期化し、ブロック走査の順序を入れ替えてmaxを早期に安定化させ、後続ブロックでは最大値を「凍結」しつつもオンラインsoftmaxの構造は維持します。
この考え方を、ブロックスパースのスキップ（例：BLASST）と統合することでVector Relieved Sparse Attention（VSA）へ拡張し、ブロック数とブロック単位のオーバーヘッドの両方を削減します。
VFA/VSAは、FA4.0の更新ステージで用いられる条件付きリスケール操作を回避し、MMLUやMATH500といったベンチマークで、C16V32ベースラインに対する速度向上を報告しつつ、性能低下は回避しています。
結果として、小さなバリアント（例：C8V32、C4V32、C4V16）では現代のハードウェア上で約2×の速度向上に到達し、指数（exponent）容量をより大きくできる将来のアーキテクチャでは最大で約6×の改善が期待されます。

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修

日経XTECH

Copilotで3つのAIモードを使い分けて仕事をより迅速に

日経XTECH

RAGの精度向上、「AI-Ready」データを作るコンテキストエンジニアリング

日経XTECH

VFA: グローバル最大値の事前計算によるFlash Attentionにおけるベクトル演算の負荷軽減

要点

関連記事

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修

Copilotで3つのAIモードを使い分けて仕事をより迅速に

RAGの精度向上、「AI-Ready」データを作るコンテキストエンジニアリング

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

AI時代も「議事録の取り方」必要か 下積み減も土台固め、IT5社の全体研修

Copilotで3つのAIモードを使い分けて仕事をより迅速に

RAGの精度向上、「AI-Ready」データを作るコンテキストエンジニアリング

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修