AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

ggml-cuda、DKQ=320/DV=256（ncols2=32）向けにflash-attnサポートを追加（ggml-org/llama.cppのPull Request #22286）

Reddit r/LocalLLaMA / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

ggml-cudaに、特定のパラメータ設定（DKQ=320/DV=256、ncols2=32）向けのFlashAttentionサポートが追加されました。
この更新は、以前はCPUフォールバックが発生していたため、CUDA上でMistral Small 4の速度が向上すると報告されています。
GPU側の最適化されたカーネル経路を有効化することで、従来のフォールバックと比べてレイテンシやスループットの改善が見込まれます。
会話では、今後のMistralモデルに関連する可能性が示唆されましたが、明確な関連は述べられていません。

ggml-cuda: add flash-attn support for DKQ=320/DV=256 with ncols2=32 (… by lnigam · Pull Request #22286 · ggml-org/llama.cpp

CUDA上でMistral Small 4の速度が向上

（以前はCPUへのフォールバックがありました）

（今後登場するMistralモデルに、何か関連があるのかな？たぶん違うけど）

投稿者: /u/jacek2023
[link] [comments]

関連記事

Black Hat USA

Black Hat USA

AI Business

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告