| CUDA上でMistral Small 4の速度が向上 (以前はCPUへのフォールバックがありました) (今後登場するMistralモデルに、何か関連があるのかな? たぶん違うけど) [link] [comments] |
ggml-cuda、DKQ=320/DV=256(ncols2=32)向けにflash-attnサポートを追加(ggml-org/llama.cppのPull Request #22286)
Reddit r/LocalLLaMA / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- ggml-cudaに、特定のパラメータ設定(DKQ=320/DV=256、ncols2=32)向けのFlashAttentionサポートが追加されました。
- この更新は、以前はCPUフォールバックが発生していたため、CUDA上でMistral Small 4の速度が向上すると報告されています。
- GPU側の最適化されたカーネル経路を有効化することで、従来のフォールバックと比べてレイテンシやスループットの改善が見込まれます。
- 会話では、今後のMistralモデルに関連する可能性が示唆されましたが、明確な関連は述べられていません。
