FlashAttention-4: 1613 TFLOPs/s、Tritonより2.7倍高速、Pythonで実装。推論への意味

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

FlashAttention-4（FA-4）は、NVIDIA B200上でBF16のフォワードに対して1,613 TFLOPs/sを達成し、アテンションが行列積（matmul）に近い性能に到達しています。
この記事では、Tritonに対して2.1〜2.7倍の速度向上を報告し、cuDNN 9.13に対しては最大約1.3倍の改善を示しています。これらの向上は、選択的なリスケーリングとマルチステージのパイプラインにより、softmaxのボトルネックを削減できることに起因するとされています。
FA-4は（3月7日にリリースされた）vLLM 0.17.0に統合されており、B200ユーザー向けに利用可能です。また、PyTorch FlexAttentionでもFA-4のバックエンドが提供されており、報告ベースで1.2〜3.2倍の改善が示されています。
本手法はGQAとMQAをサポート（複数の代表的なモデルファミリで動作）し、window_sizeパラメータによるスライディングウィンドウ・アテンションも追加されています。
解説では、FA-4はホッパー／ブラックウェルのみを対象（A100や一般的なコンシューマGPUは対象外）としている点が強調されています。これはブラックウェル固有のハードウェア機能に依存しているためです。一方で、Python／CuTe-DSLという観点は、より高速なカーネル反復を可能にする重要な要因として位置付けられています。

FlashAttention-4（2026/03/05）について深掘りした解説記事を書きました。推論性能を考えている人にとって関連性があります。

推論向けTL;DR：

BF16フォワード：B200で1,613 TFLOPs/s（71%の利用率）。注意（Attention）は、ほぼマトマル（matmul）速度になっています。
Tritonより2.1〜2.7倍高速。cuDNN 9.13に対して最大1.3倍高速
vLLM 0.17.0（3月7日リリース）にFA-4を統合。B200を使っているなら自動で有効になります。
PyTorchのFlexAttentionにもFA-4バックエンドがあります（Tritonバックエンドに対して1.2〜3.2倍）
GQAとMQAを完全サポート（Llama、Mistral、Qwen、Gemmaはいずれも動作）
window_sizeパラメータでスライディングウィンドウが利用可能

大半の人にとっての悪いニュース：

FA-4はHopper＋Blackwellのみで動作します。H100/H800およびB200/B100では利用可能ですが、A100やコンシューマ向けカードでは利用できません。最適化は、既存の古いGPUには存在しない特定のBlackwellハードウェア機能（TMEM、2-CTA MMA、非同期TMA）を活用しています。

A100の場合：FA-2のままで。

H100の場合：FA-4はサポートされていますが、Blackwellほどの伸びは小さめです。試す価値はあります。

B200の場合：vLLMを更新するだけでOKです。

この記事では、Blackwell上でボトルネックがマトマルではなくsoftmaxになった理由、選択的リスケーリングがsoftmax補正作業の約10倍分をスキップする仕組み、そして完全な5段階パイプラインのアーキテクチャを分解しています。

またPythonの観点も扱っています。FA-4は100% CuTe-DSL（NVIDIAのPythonカーネルDSL）です。C++相当は55秒かかるのに対してコンパイルは2.5秒。実行時のパフォーマンスは同等です。カーネルのイテレーション速度にとって大きな意味があります。

論文： https://arxiv.org/abs/2603.05451

記事の無料リンク： https://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0

ローカルモデルを動かしている人へ：

選択的リスケーリングや、ソフトウェアでエミュレートしたexpといったアルゴリズム上のアイデアは、いずれコンシューマGPUにも段階的に降りてくる可能性が高いです。CuTeDSLツールチェーンこそが、カーネル開発を全体として高速化するための本当の突破口です。

submitted by /u/Sensitive-Two9732
[リンク] [コメント]

1Passwordが人間とAIエージェントのアイデンティティを統一管理する「Unified Access 」発表

Publickey

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Laravel、Twilio、OpenAIを使ってWhatsApp AIアシスタントを構築する

Dev.to

FlashAttention-4: 1613 TFLOPs/s、Tritonより2.7倍高速、Pythonで実装。推論への意味

要点

関連記事

1Passwordが人間とAIエージェントのアイデンティティを統一管理する「Unified Access 」発表

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Laravel、Twilio、OpenAIを使ってWhatsApp AIアシスタントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer