Moonshot AIは、flash-linear-attentionエコシステムに直接接続する高性能なKimi Delta Attentionの実装であるFlashKDAをリリースしており、ベンチマークではそれが明確に高速であることが示されています。
この投稿 Moonshot AI Open-Sources FlashKDA: 可変長バッチ処理とH20ベンチマークを備えたKimi Delta Attention向けのCUTLASSカーネル は、MarkTechPost に最初に掲載されました。




