llama.cpp - BlackwellでNVFP4ネイティブ対応(b8967)

Reddit r/LocalLLaMA / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • llama.cpp のリリース b8967 で、Blackwell 向けの NVFP4 ネイティブ対応が追加されたと報告されている。
  • 記事では RTX 5090+(テスト環境として RTX 5060 Ti を含むが未使用)と Ryzen 9 9950X3D で、CUDA を有効にしたベンチマーク実行例が示されている。
  • 対象モデルは Qwen3.6 27B NVFP4(NVFP4.gguf)で、レイヤーオフロード量(-ngl)を 999、フラグメント/機能設定(-fa 1)などの条件で複数テストが行われている。
  • ベンチ結果として、生成スループット(t/s)が複数設定で記録されており、特定条件では高いスループットが得られたことが示唆される。
  • まず動作確認と性能計測の段階で「時間 to test!!!」という文脈のため、今後の広範な検証が期待される内容である。
llama.cpp - NVFP4 native support on Blackwell from now - b8967

ついに来たようですね!さっそくテストしてみる!!!
https://github.com/ggml-org/llama.cpp/releases/tag/b8967
プラットフォーム: RTX 5090+(RTX5060TI - ただしテスト中は未使用) - Ryzen 9 9950X3D+128 GB DDR5 5600 CL36):
テスト:
CUDA_VISIBLE_DEVICES=0 /home/marcin/llama.cpp/llama-bench \\

-m /home/marcin/llama.cpp_models/Qwen3.6-27B-NVFP4/Qwen3.6-27B-NVFP4.gguf \\

-ngl 999 \\

-fa 1 \\

-p 512,2048 \\

-n 128,512 \\

-d 0,4096,8192,16384,32768 \\

-r 5 \\

-o md | tee /home/marcin/qwen3.6-27b-nvfp4-gpu0-bench-depth.md

model size params backend ngl fa test t/s
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp512 5546.93 ± 220.29
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp2048 5594.58 ± 7.70
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg128 73.62 ± 0.16
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg512 73.68 ± 0.05
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp512 @ d4096 5232.92 ± 144.37
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp2048 @ d4096 5272.82 ± 7.11
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg128 @ d4096 72.47 ± 0.16
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg512 @ d4096 72.50 ± 0.06
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp512 @ d8192 4995.34 ± 135.04
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp2048 @ d8192 5005.44 ± 4.18
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg128 @ d8192 71.57 ± 0.18
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg512 @ d8192 71.61 ± 0.06
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp512 @ d16384 4537.54 ± 129.55
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp2048 @ d16384 4547.25 ± 3.11
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg128 @ d16384 70.04 ± 0.16
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg512 @ d16384 69.90 ± 0.06
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp512 @ d32768 3586.58 ± 71.03
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 pp2048 @ d32768 3560.58 ± 2.65
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg128 @ d32768 66.88 ± 0.11
qwen35 27B NVFP4 17.50 GiB 26.90 B CUDA 999 1 tg512 @ d32768 66.98 ± 0.02

同じモデルでの完全比較 - llama.cpp における native NVFP4 サポート(ビルドネイティブ)とそうでないものの比較は以下で利用可能です:
https://www.reddit.com/r/LocalLLaMA/comments/1syxckc/llamacpp_benchmark_native_vs_non_native_nvfp4_on/

投稿者 /u/mossy_troll_84
[リンク] [コメント]