Qwenチーム、NVIDIA Hopperで最大3倍高速化を実現する高性能リニアアテンション用カーネルライブラリ「FlashQLA」をリリース

MarkTechPost / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

QwenLMチームは、Gated Delta Network（GDN）Chunked Prefillの順伝播および逆伝播を加速する新しい高性能カーネルライブラリ「FlashQLA」をリリースしました。
FlashQLAは、大規模な事前学習だけでなく、エッジ側でのエージェント型推論シナリオも想定して設計されています。
同ライブラリはNVIDIA Hopper GPU上で最大3倍の速度向上を実現するとされており、現行のNVIDIAハードウェアに最適化されていることが示唆されます。
対象となるGDN Chunked Prefillの中核となる演算を改善することで、この方式を用いるシステムの学習および推論の遅延やコストを削減できる可能性があります。
リニアアテンション用カーネルの選択肢が増えることで、実運用パイプラインに高速なアテンション実装を組み込みやすくなるかもしれません。

QwenLMチームは、Gated Delta Network（GDN）Chunked Prefillの順伝播および逆伝播を大幅に加速する新しいカーネルライブラリであるFlashQLAをリリースしました。大規模な事前学習と、エッジ側でのエージェント型推論の両方のシナリオを対象としています。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

AI Business

日経XTECH

日経XTECH

日経XTECH

Mistral AI Blog