FlashAttention-4(2026/03/05)について深掘りした解説記事を書きました。推論性能を考えている人にとって関連性があります。
推論向けTL;DR:
- BF16フォワード:B200で1,613 TFLOPs/s(71%の利用率)。注意(Attention)は、ほぼマトマル(matmul)速度になっています。
- Tritonより2.1〜2.7倍高速。cuDNN 9.13に対して最大1.3倍高速
- vLLM 0.17.0(3月7日リリース)にFA-4を統合。B200を使っているなら自動で有効になります。
- PyTorchのFlexAttentionにもFA-4バックエンドがあります(Tritonバックエンドに対して1.2〜3.2倍)
- GQAとMQAを完全サポート(Llama、Mistral、Qwen、Gemmaはいずれも動作)
- window_sizeパラメータでスライディングウィンドウが利用可能
大半の人にとっての悪いニュース:
FA-4はHopper+Blackwellのみで動作します。H100/H800およびB200/B100では利用可能ですが、A100やコンシューマ向けカードでは利用できません。最適化は、既存の古いGPUには存在しない特定のBlackwellハードウェア機能(TMEM、2-CTA MMA、非同期TMA)を活用しています。
A100の場合:FA-2のままで。
H100の場合:FA-4はサポートされていますが、Blackwellほどの伸びは小さめです。試す価値はあります。
B200の場合:vLLMを更新するだけでOKです。
この記事では、Blackwell上でボトルネックがマトマルではなくsoftmaxになった理由、選択的リスケーリングがsoftmax補正作業の約10倍分をスキップする仕組み、そして完全な5段階パイプラインのアーキテクチャを分解しています。
またPythonの観点も扱っています。FA-4は100% CuTe-DSL(NVIDIAのPythonカーネルDSL)です。C++相当は55秒かかるのに対してコンパイルは2.5秒。実行時のパフォーマンスは同等です。カーネルのイテレーション速度にとって大きな意味があります。
論文: https://arxiv.org/abs/2603.05451
ローカルモデルを動かしている人へ:
選択的リスケーリングや、ソフトウェアでエミュレートしたexpといったアルゴリズム上のアイデアは、いずれコンシューマGPUにも段階的に降りてくる可能性が高いです。CuTeDSLツールチェーンこそが、カーネル開発を全体として高速化するための本当の突破口です。
[リンク] [コメント]