ggml-cuda、DKQ=320/DV=256(ncols2=32)向けにflash-attnサポートを追加(ggml-org/llama.cppのPull Request #22286)

Reddit r/LocalLLaMA / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ggml-cudaに、特定のパラメータ設定(DKQ=320/DV=256、ncols2=32)向けのFlashAttentionサポートが追加されました。
  • この更新は、以前はCPUフォールバックが発生していたため、CUDA上でMistral Small 4の速度が向上すると報告されています。
  • GPU側の最適化されたカーネル経路を有効化することで、従来のフォールバックと比べてレイテンシやスループットの改善が見込まれます。
  • 会話では、今後のMistralモデルに関連する可能性が示唆されましたが、明確な関連は述べられていません。
ggml-cuda: add flash-attn support for DKQ=320/DV=256 with ncols2=32 (… by lnigam · Pull Request #22286 · ggml-org/llama.cpp

CUDA上でMistral Small 4の速度が向上

(以前はCPUへのフォールバックがありました)

(今後登場するMistralモデルに、何か関連があるのかな? たぶん違うけど)

投稿者: /u/jacek2023
[link] [comments]