Qwenチーム、NVIDIA Hopperで最大3倍高速化を実現する高性能リニアアテンション用カーネルライブラリ「FlashQLA」をリリース

MarkTechPost / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • QwenLMチームは、Gated Delta Network(GDN)Chunked Prefillの順伝播および逆伝播を加速する新しい高性能カーネルライブラリ「FlashQLA」をリリースしました。
  • FlashQLAは、大規模な事前学習だけでなく、エッジ側でのエージェント型推論シナリオも想定して設計されています。
  • 同ライブラリはNVIDIA Hopper GPU上で最大3倍の速度向上を実現するとされており、現行のNVIDIAハードウェアに最適化されていることが示唆されます。
  • 対象となるGDN Chunked Prefillの中核となる演算を改善することで、この方式を用いるシステムの学習および推論の遅延やコストを削減できる可能性があります。
  • リニアアテンション用カーネルの選択肢が増えることで、実運用パイプラインに高速なアテンション実装を組み込みやすくなるかもしれません。

QwenLMチームは、Gated Delta Network(GDN)Chunked Prefillの順伝播および逆伝播を大幅に加速する新しいカーネルライブラリであるFlashQLAをリリースしました。大規模な事前学習と、エッジ側でのエージェント型推論の両方のシナリオを対象としています。

この投稿 Qwen Team Releases FlashQLA: a High-Performance Linear Attention Kernel Library That Achieves Up to 3× Speedup on NVIDIA Hopper GPUs は、MarkTechPost に最初に掲載されました。