llama.cppベンチ:Blackwell上でのネイティブNVFP4 vs 非ネイティブNVFP4(要約)

Reddit r/LocalLLaMA / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 同一のQwen3.6-27B-NVFP4モデルと同一のCUDA設定を用い、RTX 5090環境で「ネイティブNVFP4なし」のllama.cppビルド(b8966)と「ネイティブNVFP4あり」のビルド(b8967)を比較しています。
  • b8967のネイティブNVFP4は、プロンプト処理(プロンプト取り込み)性能を約43〜68%ほど大きく向上させ、平均の改善率は約57%です。
  • トークン生成速度は実質的に変わらないため、主な改善は入力が長い場合やレイテンシに効く「最初のトークンまでの時間」に現れます。
  • 改善効果は、長いプロンプト、大きなコンテキスト、RAG/ドキュメント分析、コード中心のプロンプトなど、プロンプト処理が全体遅延を支配しやすい用途で特に大きいとされています。
  • llama-benchが報告するモデルラベルと実際にテストしたモデルの間に不一致があるため、本結果はQwen3.6-27B-NVFP4に対するものだと注意しています。

同一のQwen3.6-27B-NVFP4モデルで、llama.cppの2つのビルドをテストしました。

llama-benchではモデルラベルがqwen35 27B NVFP4と報告されますが、実際にテストしたモデルはQwen3.6-27B-NVFP4です。

テスト環境

  • GPU: NVIDIA GeForce RTX 5090
  • CPU: AMD Ryzen 9 9950X3D
  • RAM: 128 GB DDR5 5600 CL36
  • バックエンド: CUDA

テストしたビルド

  • b8966ネイティブNVFP4対応なしの最終ビルド
  • b8967ネイティブNVFP4対応あり(ネイティブNVFP4対応の最初のビルド)

両方の実行では、同じモデルと設定を使用しました:Qwen3.6-27B-NVFP417.50 GiB26.90Bパラメータ、CUDAバックエンド、ngl=999fa=1

主な結論

b8967におけるネイティブNVFP4対応は、プロンプト処理/プロンプト取り込み性能を大幅に改善しますが、トークン生成速度は実質的には変わりません。

実務的には:

  • プロンプト処理は、ネイティブNVFP4で約43〜68%高速です。
  • 平均的なプロンプト処理の向上幅は、およそ57%です。
  • トークン生成はほぼ変わりません。
  • 長いプロンプト、大きいコンテキスト、RAGワークロード、ドキュメント解析、コード中心のプロンプトで最も効果が出るはずです。
  • 通常のチャット生成速度は、生成が始まってからは概ね同じ体感になります。

プロンプト処理の結果

Test b8966 — ネイティブNVFP4なし b8967 — ネイティブNVFP4 改善
pp512 3295.10 t/s 5546.93 t/s +68.3%
pp2048 3373.30 t/s 5594.58 t/s +65.8%
pp512 @ d4096 3265.74 t/s 5232.92 t/s +60.2%
pp2048 @ d4096 3231.69 t/s 5272.82 t/s +63.2%
pp512 @ d8192 3152.71 t/s 4995.34 t/s +58.4%
pp2048 @ d8192 3117.80 t/s 5005.44 t/s +60.5%
pp512 @ d16384 2965.81 t/s 4537.54 t/s +53.0%
pp2048 @ d16384 2934.26 t/s 4547.25 t/s +55.0%
pp512 @ d32768 2514.70 t/s 3586.58 t/s +42.6%
pp2048 @ d32768 2479.39 t/s 3560.58 t/s +43.6%

ネイティブNVFP4ビルドは、プリフィル中に一貫して大幅に高速です。最大の伸びは、コンテキストサイズが短い場合および中程度の場合に見られ、このときb8967はb8966より約1.6×〜1.7×高速です。d32768のような非常に長いコンテキストでは優位性は縮小しますが、それでも1.43×高速程度で依然として大きな差があります。

トークン生成の結果

Test b8966 — ネイティブNVFP4なし b8967 — ネイティブNVFP4
tg128 73.73 t/s 73.62 t/s -0.1%
tg512 73.71 t/s 73.68 t/s ~0.0%
tg128 @ d4096 72.60 t/s 72.47 t/s -0.2%
tg512 @ d4096 72.47 t/s 72.50 t/s +0.0%
tg128 @ d8192 71.70 t/s 71.57 t/s -0.2%
tg512 @ d8192 71.65 t/s 71.61 t/s -0.1%
tg128 @ d16384 70.10 t/s 70.04 t/s -0.1%
tg512 @ d16384 70.08 t/s 69.90 t/s -0.3%
tg128 @ d32768 67.00 t/s 66.88 t/s -0.2%
tg512 @ d32768 66.98 t/s 66.98 t/s 0.0%

トークン生成の性能は、2つのビルド間で本質的に同一です。わずかな差は、通常のベンチマークノイズの範囲内です。

つまり、ネイティブNVFP4対応はプリフィル経路を改善しますが、自律回帰的(autoregressive)デコードを目立って高速化するわけではありません。

コンテキスト長の挙動

両方のビルドで、コンテキスト長が増えるにつれて徐々に速度が低下します。トークン生成では低下の程度がほぼ同じです:

Context b8966 tg512 b8967 tg512
base 73.71 t/s 73.68 t/s
d4096 72.47 t/s 72.50 t/s
d8192 71.65 t/s 71.61 t/s
d16384 70.08 t/s 69.90 t/s
d32768 66.98 t/s 66.98 t/s

ベースのテストからd32768へ進むと、生成速度は約73.7 t/sから67.0 t/sへ低下し、これは約9%の減少にとどまります。これは長いコンテキストにおける27Bモデルとして健全な結果です。

プロンプト処理については、b8967は全範囲で大幅に高速なままですが、非常に長いコンテキストサイズでは相対的な優位性が縮小します:

Context b8966 pp2048 b8967 pp2048 Improvement
base 3373.30 t/s 5594.58 t/s +65.8%
d4096 3231.69 t/s 5272.82 t/s +63.2%
d8192 3117.80 t/s 5005.44 t/s +60.5%
d16384 2934.26 t/s 4547.25 t/s +55.0%
d32768 2479.39 t/s 3560.58 t/s +43.6%

Final takeaway

ネイティブNVFP4サポートを備えたb8967は、RTX 5090システム上のQwen3.6-27B-NVFP4に対して、b8966より明らかに優れています。

これは大きなプロンプト処理の改善をもたらします――おおよそ1.4×〜1.7×高速なプリフィル――一方で、トークン生成速度は実質的に変わりません。

そのため実用上のメリットは、「生成中の1秒あたりトークン数が増えること」ではなく、むしろ大きなプロンプトの取り込みが大幅に速くなり、長いプロンプトでの最初のトークンまでの時間が短縮され、長いコンテキストのワークロードでの使い勝手が向上することです。

以下の投稿者によって提出 /u/mossy_troll_84
[link] [comments]