llama.cpp - BlackwellでNVFP4ネイティブ対応（b8967）

Reddit r/LocalLLaMA / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

llama.cpp のリリース b8967 で、Blackwell 向けの NVFP4 ネイティブ対応が追加されたと報告されている。
記事では RTX 5090+（テスト環境として RTX 5060 Ti を含むが未使用）と Ryzen 9 9950X3D で、CUDA を有効にしたベンチマーク実行例が示されている。
対象モデルは Qwen3.6 27B NVFP4（NVFP4.gguf）で、レイヤーオフロード量（-ngl）を 999、フラグメント/機能設定（-fa 1）などの条件で複数テストが行われている。
ベンチ結果として、生成スループット（t/s）が複数設定で記録されており、特定条件では高いスループットが得られたことが示唆される。
まず動作確認と性能計測の段階で「時間 to test!!!」という文脈のため、今後の広範な検証が期待される内容である。

llama.cpp - NVFP4 native support on Blackwell from now - b8967

ついに来たようですね！さっそくテストしてみる！！！
https://github.com/ggml-org/llama.cpp/releases/tag/b8967
プラットフォーム: RTX 5090+(RTX5060TI - ただしテスト中は未使用) - Ryzen 9 9950X3D+128 GB DDR5 5600 CL36):
テスト:
CUDA_VISIBLE_DEVICES=0 /home/marcin/llama.cpp/llama-bench \\

-m /home/marcin/llama.cpp_models/Qwen3.6-27B-NVFP4/Qwen3.6-27B-NVFP4.gguf \\

-ngl 999 \\

-fa 1 \\

-p 512,2048 \\

-n 128,512 \\

-d 0,4096,8192,16384,32768 \\

-r 5 \\

-o md | tee /home/marcin/qwen3.6-27b-nvfp4-gpu0-bench-depth.md

model	size	params	backend	ngl	fa	test	t/s
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp512	5546.93 ± 220.29
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp2048	5594.58 ± 7.70
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg128	73.62 ± 0.16
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg512	73.68 ± 0.05
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp512 @ d4096	5232.92 ± 144.37
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp2048 @ d4096	5272.82 ± 7.11
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg128 @ d4096	72.47 ± 0.16
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg512 @ d4096	72.50 ± 0.06
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp512 @ d8192	4995.34 ± 135.04
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp2048 @ d8192	5005.44 ± 4.18
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg128 @ d8192	71.57 ± 0.18
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg512 @ d8192	71.61 ± 0.06
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp512 @ d16384	4537.54 ± 129.55
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp2048 @ d16384	4547.25 ± 3.11
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg128 @ d16384	70.04 ± 0.16
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg512 @ d16384	69.90 ± 0.06
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp512 @ d32768	3586.58 ± 71.03
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	pp2048 @ d32768	3560.58 ± 2.65
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg128 @ d32768	66.88 ± 0.11
qwen35 27B NVFP4	17.50 GiB	26.90 B	CUDA	999	1	tg512 @ d32768	66.98 ± 0.02

同じモデルでの完全比較 - llama.cpp における native NVFP4 サポート（ビルドネイティブ）とそうでないものの比較は以下で利用可能です：
https://www.reddit.com/r/LocalLLaMA/comments/1syxckc/llamacpp_benchmark_native_vs_non_native_nvfp4_on/

投稿者 /u/mossy_troll_84
[リンク] [コメント]

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

AIエージェントのループ向けに作られたAPIテストツール

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

llama.cpp - BlackwellでNVFP4ネイティブ対応（b8967）

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ