MoonshotがFlashKDAをオープンソース化—Kimi Delta Attention向けCUTLASSカーネル、H20でTriton基準比最大2.22倍

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

MoonshotAIは、Kimi Delta Attention（KDA）向けのCUTLASS（C++）によるフォワード・カーネル実装「FlashKDA」をオープンソース化しました（Kimi Linear論文の線形アテンション変種）。
FlashKDAは、FLA（Flash Linear Attention）プロジェクトにバックエンドとして統合され、FLA pull request #852経由で既存のFLAベースのKDAモデルが透過的に利用できるようになります。
NVIDIA H20（SM90+）上で、既存のTriton経路に対するベンチマークでは、固定長で最大1.72倍、混在する可変長で1.95倍、特定の可変長（uniform 1024x8）設定で2.22倍の高速化が示されています。
記事では、線形アテンションのスケーリング恩恵は本当にハードウェア効率の高いカーネル実装があってこそ成立すると強調しており、Hopper向けにメモリアクセス特性を最適化したCUTLASSが理論と実機性能のギャップを埋める役割を果たすとしています。
FlashKDAは現在フォワード・パスのみで、MITライセンスです。CUDA 12.9+、PyTorch 2.4+、SM90+が必要で、学習（バックワード）用途は当面制約があります。

Moonshot オープンソースの FlashKDA、Kimi Delta Attention 向けの CUTLASS カーネル。H20 で Triton のベースラインに対し最大 2.22x

今週は K2.6 を扱うさまざまなルーティング層がどう動くか比較していて、OpenRouter、Together、Orq を見ていました。その調査中に、K2.6 の活動と一緒に Moonshot が出した FlashKDA に出会いました。注目されずに見過ごされているようですが、モデルのリリースとは別に、カーネル作業そのものが本当に面白いのでここで共有します。

それが何か。Kimi Delta Attention の順伝播カーネルに対する、CUTLASS の C++ 実装です。これは Kimi Linear 論文の線形アテンションのバリアントになります。FLA の pull request #852 経由で、バックエンドとして flash-linear-attention に組み込まれるので、すでに KDA ベースのモデルで FLA を使っている人は、バックエンド層で FlashKDA にルーティングできます。

彼らの H20 ベンチマークの数値（FLA 既存の Triton 経路に対して計測）：

T=8192、H=96、D=128、固定長シーケンスで 1.72x。混在 seq_lens の可変長で 1.95x。1024x8 の一様な可変長で 2.22x。

なぜ重要か。KDA のような線形アテンションのアーキテクチャは、シーケンス長に対して線形にスケールすることを約束しますが、その約束が成り立つのは、カーネル実装が実際にハードウェア効率的である場合だけです。FLA の Triton 経路はリファレンスで機能していますが、ホッパーのメモリアクセスパターン向けにチューニングされた CUTLASS によって、理論的なコストモデルと実際に GPU で見える性能のギャップを埋められます。

要件は SM90 以上、CUDA 12.9 以上、PyTorch 2.4 以上です。MIT ライセンス。

率直に挙げるべき制約として、ベンチマークは順伝播のみで、すべて数値は H20 上です。H20 は中国向けのホッパー派生なので、H100 や Blackwell での絶対値は異なるはずです。相対的なスピードアップは方向性としては似ると思われますが、まだその数値を投稿した人はいません。

ここで誰かが H100 で試したか、あるいは逆伝播パスのカーネルがいつ出そうか、考えがあるか気になります。順伝播のみという話だと、現状の学習用途には制限があります。

submitted by /u/Cosmicdev_058
[link] [comments]

Black Hat USA

AI Business

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

note

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

note

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

note

【過去の棚卸し】その「失敗談」が最強の武器に変わる。AIを参謀にして独自のビジネス価値を逆算する壁打ち術。

note

MoonshotがFlashKDAをオープンソース化—Kimi Delta Attention向けCUTLASSカーネル、H20でTriton基準比最大2.22倍

要点

関連記事

Black Hat USA

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

【過去の棚卸し】その「失敗談」が最強の武器に変わる。AIを参謀にして独自のビジネス価値を逆算する壁打ち術。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週 火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

【過去の棚卸し】その「失敗談」が最強の武器に変わる。AIを参謀にして独自のビジネス価値を逆算する壁打ち術。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】