| FlashQLAを紹介します。TileLang上に構築された、高性能な線形注意(linear attention)カーネルです。 順伝播:2〜3倍の高速化。逆伝播:2倍の高速化。 個人用デバイス上で動くエージェント型AIのために最適化されています。 主な着眼点:
FlashQLAは、自動のインデバイスCP(intra-device CP)によりSMの利用率を高めます。効果は、特にTP構成、小型モデル、長いコンテキストのワークロードで顕著に表れます。 GDNフロー全体を1つのカーネルに融合する代わりに、CPと逆伝播の効率のために最適化した2つのカーネルに分割しました。大きなバッチサイズでは、完全に融合した場合に比べて追加のメモリI/Oオーバーヘッドが発生しますが、エッジデバイスと長いコンテキストのワークロードにおいて、より良い実世界の性能を実現します。 逆伝播が最も大変な部分でした。極めて厳しいオンチップメモリ制約の下で、16段のワープ特化パイプラインを構築し、最終的にカーネルレベルで2倍超の高速化を達成しました。 コミュニティのお役に立てれば幸いです! 詳細: [リンク] [コメント] |
Qwen、TileLangベースの高速リニア注意カーネル「FlashQLA」を発表
Reddit r/LocalLLaMA / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- Qwenは、TileLang上で構築された高性能リニア注意カーネル「FlashQLA」を導入し、個人端末(エッジ)上でのエージェント型AIの効率化を狙っています。
- 発表されている性能として、フォワードで2〜3倍、バックワードで約2倍の高速化が示され、TP環境、小規模モデル、長文脈ワークロードで特に効果が大きいとされています。
- FlashQLAは、ゲート駆動の自動インターデバイスCP(intra-device CP)と、ハードウェアに適した代数的な組み替えにより、SM利用率の向上を図っています。
- すべてのGDN処理を1つのカーネルに完全融合するのではなく、CPとバックワード効率に最適化した2つのカーネルに分割しており、大きいバッチサイズではメモリI/Oの追加オーバーヘッドが出るものの、実運用のエッジ性能が改善するとのことです。
- バックワードは最も難しい部分で、16段のウォープ特化パイプラインとしてオンチップメモリ制約の厳しい条件下で設計され、カーネルレベルで2倍超の高速化を達成したとされています。ブログとGitHubでコードも公開されています。




