QwenLMチームは、Gated Delta Network(GDN)Chunked Prefillの順伝播および逆伝播を大幅に加速する新しいカーネルライブラリであるFlashQLAをリリースしました。大規模な事前学習と、エッジ側でのエージェント型推論の両方のシナリオを対象としています。
この投稿 Qwen Team Releases FlashQLA: a High-Performance Linear Attention Kernel Library That Achieves Up to 3× Speedup on NVIDIA Hopper GPUs は、MarkTechPost に最初に掲載されました。




