MoonshotがFlashKDAをオープンソース化—Kimi Delta Attention向けCUTLASSカーネル、H20でTriton基準比最大2.22倍

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • MoonshotAIは、Kimi Delta Attention(KDA)向けのCUTLASS(C++)によるフォワード・カーネル実装「FlashKDA」をオープンソース化しました(Kimi Linear論文の線形アテンション変種)。
  • FlashKDAは、FLA(Flash Linear Attention)プロジェクトにバックエンドとして統合され、FLA pull request #852経由で既存のFLAベースのKDAモデルが透過的に利用できるようになります。
  • NVIDIA H20(SM90+)上で、既存のTriton経路に対するベンチマークでは、固定長で最大1.72倍、混在する可変長で1.95倍、特定の可変長(uniform 1024x8)設定で2.22倍の高速化が示されています。
  • 記事では、線形アテンションのスケーリング恩恵は本当にハードウェア効率の高いカーネル実装があってこそ成立すると強調しており、Hopper向けにメモリアクセス特性を最適化したCUTLASSが理論と実機性能のギャップを埋める役割を果たすとしています。
  • FlashKDAは現在フォワード・パスのみで、MITライセンスです。CUDA 12.9+、PyTorch 2.4+、SM90+が必要で、学習(バックワード)用途は当面制約があります。
Moonshot オープンソースの FlashKDA、Kimi Delta Attention 向けの CUTLASS カーネル。H20 で Triton のベースラインに対し最大 2.22x

github.com/MoonshotAI/FlashKDA

今週は K2.6 を扱うさまざまなルーティング層がどう動くか比較していて、OpenRouter、Together、Orq を見ていました。その調査中に、K2.6 の活動と一緒に Moonshot が出した FlashKDA に出会いました。注目されずに見過ごされているようですが、モデルのリリースとは別に、カーネル作業そのものが本当に面白いのでここで共有します。

それが何か。Kimi Delta Attention の順伝播カーネルに対する、CUTLASS の C++ 実装です。これは Kimi Linear 論文の線形アテンションのバリアントになります。FLA の pull request #852 経由で、バックエンドとして flash-linear-attention に組み込まれるので、すでに KDA ベースのモデルで FLA を使っている人は、バックエンド層で FlashKDA にルーティングできます。

彼らの H20 ベンチマークの数値(FLA 既存の Triton 経路に対して計測):

T=8192、H=96、D=128、固定長シーケンスで 1.72x。混在 seq_lens の可変長で 1.95x。1024x8 の一様な可変長で 2.22x。

なぜ重要か。KDA のような線形アテンションのアーキテクチャは、シーケンス長に対して線形にスケールすることを約束しますが、その約束が成り立つのは、カーネル実装が実際にハードウェア効率的である場合だけです。FLA の Triton 経路はリファレンスで機能していますが、ホッパーのメモリアクセスパターン向けにチューニングされた CUTLASS によって、理論的なコストモデルと実際に GPU で見える性能のギャップを埋められます。

要件は SM90 以上、CUDA 12.9 以上、PyTorch 2.4 以上です。MIT ライセンス。

率直に挙げるべき制約として、ベンチマークは順伝播のみで、すべて数値は H20 上です。H20 は中国向けのホッパー派生なので、H100 や Blackwell での絶対値は異なるはずです。相対的なスピードアップは方向性としては似ると思われますが、まだその数値を投稿した人はいません。

ここで誰かが H100 で試したか、あるいは逆伝播パスのカーネルがいつ出そうか、考えがあるか気になります。順伝播のみという話だと、現状の学習用途には制限があります。

submitted by /u/Cosmicdev_058
[link] [comments]