FlashAttention-4: 1613 TFLOPs/s、Tritonより2.7倍高速、Pythonで実装。推論への意味

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • FlashAttention-4(FA-4)は、NVIDIA B200上でBF16のフォワードに対して1,613 TFLOPs/sを達成し、アテンションが行列積(matmul)に近い性能に到達しています。
  • この記事では、Tritonに対して2.1〜2.7倍の速度向上を報告し、cuDNN 9.13に対しては最大約1.3倍の改善を示しています。これらの向上は、選択的なリスケーリングとマルチステージのパイプラインにより、softmaxのボトルネックを削減できることに起因するとされています。
  • FA-4は(3月7日にリリースされた)vLLM 0.17.0に統合されており、B200ユーザー向けに利用可能です。また、PyTorch FlexAttentionでもFA-4のバックエンドが提供されており、報告ベースで1.2〜3.2倍の改善が示されています。
  • 本手法はGQAとMQAをサポート(複数の代表的なモデルファミリで動作)し、window_sizeパラメータによるスライディングウィンドウ・アテンションも追加されています。
  • 解説では、FA-4はホッパー/ブラックウェルのみを対象(A100や一般的なコンシューマGPUは対象外)としている点が強調されています。これはブラックウェル固有のハードウェア機能に依存しているためです。一方で、Python/CuTe-DSLという観点は、より高速なカーネル反復を可能にする重要な要因として位置付けられています。

FlashAttention-4(2026/03/05)について深掘りした解説記事を書きました。推論性能を考えている人にとって関連性があります。

推論向けTL;DR:

  • BF16フォワード:B200で1,613 TFLOPs/s(71%の利用率)。注意(Attention)は、ほぼマトマル(matmul)速度になっています。
  • Tritonより2.1〜2.7倍高速。cuDNN 9.13に対して最大1.3倍高速
  • vLLM 0.17.0(3月7日リリース)にFA-4を統合。B200を使っているなら自動で有効になります。
  • PyTorchのFlexAttentionにもFA-4バックエンドがあります(Tritonバックエンドに対して1.2〜3.2倍)
  • GQAとMQAを完全サポート(Llama、Mistral、Qwen、Gemmaはいずれも動作)
  • window_sizeパラメータでスライディングウィンドウが利用可能

大半の人にとっての悪いニュース:

FA-4はHopper+Blackwellのみで動作します。H100/H800およびB200/B100では利用可能ですが、A100やコンシューマ向けカードでは利用できません。最適化は、既存の古いGPUには存在しない特定のBlackwellハードウェア機能(TMEM、2-CTA MMA、非同期TMA)を活用しています。

A100の場合:FA-2のままで。

H100の場合:FA-4はサポートされていますが、Blackwellほどの伸びは小さめです。試す価値はあります。

B200の場合:vLLMを更新するだけでOKです。

この記事では、Blackwell上でボトルネックがマトマルではなくsoftmaxになった理由、選択的リスケーリングがsoftmax補正作業の約10倍分をスキップする仕組み、そして完全な5段階パイプラインのアーキテクチャを分解しています。

またPythonの観点も扱っています。FA-4は100% CuTe-DSL(NVIDIAのPythonカーネルDSL)です。C++相当は55秒かかるのに対してコンパイルは2.5秒。実行時のパフォーマンスは同等です。カーネルのイテレーション速度にとって大きな意味があります。

論文https://arxiv.org/abs/2603.05451

記事の無料リンクhttps://medium.com/ai-advances/flashattention-4-python-gpu-kernel-blackwell-2b18f51c8b32?sk=59bca93c369143e5f74fb0f86e57e6d0

ローカルモデルを動かしている人へ:

選択的リスケーリングや、ソフトウェアでエミュレートしたexpといったアルゴリズム上のアイデアは、いずれコンシューマGPUにも段階的に降りてくる可能性が高いです。CuTeDSLツールチェーンこそが、カーネル開発を全体として高速化するための本当の突破口です。

submitted by /u/Sensitive-Two9732
[リンク] [コメント]