llama.cppベンチ：Blackwell上でのネイティブNVFP4 vs 非ネイティブNVFP4（要約）

Reddit r/LocalLLaMA / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

同一のQwen3.6-27B-NVFP4モデルと同一のCUDA設定を用い、RTX 5090環境で「ネイティブNVFP4なし」のllama.cppビルド（b8966）と「ネイティブNVFP4あり」のビルド（b8967）を比較しています。
b8967のネイティブNVFP4は、プロンプト処理（プロンプト取り込み）性能を約43〜68%ほど大きく向上させ、平均の改善率は約57%です。
トークン生成速度は実質的に変わらないため、主な改善は入力が長い場合やレイテンシに効く「最初のトークンまでの時間」に現れます。
改善効果は、長いプロンプト、大きなコンテキスト、RAG/ドキュメント分析、コード中心のプロンプトなど、プロンプト処理が全体遅延を支配しやすい用途で特に大きいとされています。
llama-benchが報告するモデルラベルと実際にテストしたモデルの間に不一致があるため、本結果はQwen3.6-27B-NVFP4に対するものだと注意しています。

同一のQwen3.6-27B-NVFP4モデルで、llama.cppの2つのビルドをテストしました。

llama-benchではモデルラベルがqwen35 27B NVFP4と報告されますが、実際にテストしたモデルはQwen3.6-27B-NVFP4です。

テスト環境

GPU: NVIDIA GeForce RTX 5090
CPU: AMD Ryzen 9 9950X3D
RAM: 128 GB DDR5 5600 CL36
バックエンド: CUDA

テストしたビルド

b8966 — ネイティブNVFP4対応なしの最終ビルド
b8967 — ネイティブNVFP4対応あり（ネイティブNVFP4対応の最初のビルド）

両方の実行では、同じモデルと設定を使用しました：Qwen3.6-27B-NVFP4、17.50 GiB、26.90Bパラメータ、CUDAバックエンド、ngl=999、fa=1。

主な結論

b8967におけるネイティブNVFP4対応は、プロンプト処理／プロンプト取り込み性能を大幅に改善しますが、トークン生成速度は実質的には変わりません。

実務的には：

プロンプト処理は、ネイティブNVFP4で約43〜68%高速です。
平均的なプロンプト処理の向上幅は、およそ57%です。
トークン生成はほぼ変わりません。
長いプロンプト、大きいコンテキスト、RAGワークロード、ドキュメント解析、コード中心のプロンプトで最も効果が出るはずです。
通常のチャット生成速度は、生成が始まってからは概ね同じ体感になります。

プロンプト処理の結果

Test	b8966 — ネイティブNVFP4なし	b8967 — ネイティブNVFP4	改善
`pp512`	3295.10 t/s	5546.93 t/s	+68.3%
`pp2048`	3373.30 t/s	5594.58 t/s	+65.8%
`pp512 @ d4096`	3265.74 t/s	5232.92 t/s	+60.2%
`pp2048 @ d4096`	3231.69 t/s	5272.82 t/s	+63.2%
`pp512 @ d8192`	3152.71 t/s	4995.34 t/s	+58.4%
`pp2048 @ d8192`	3117.80 t/s	5005.44 t/s	+60.5%
`pp512 @ d16384`	2965.81 t/s	4537.54 t/s	+53.0%
`pp2048 @ d16384`	2934.26 t/s	4547.25 t/s	+55.0%
`pp512 @ d32768`	2514.70 t/s	3586.58 t/s	+42.6%
`pp2048 @ d32768`	2479.39 t/s	3560.58 t/s	+43.6%

ネイティブNVFP4ビルドは、プリフィル中に一貫して大幅に高速です。最大の伸びは、コンテキストサイズが短い場合および中程度の場合に見られ、このときb8967はb8966より約1.6×〜1.7×高速です。d32768のような非常に長いコンテキストでは優位性は縮小しますが、それでも1.43×高速程度で依然として大きな差があります。

トークン生成の結果

Test	b8966 — ネイティブNVFP4なし	b8967 — ネイティブNVFP4	差
`tg128`	73.73 t/s	73.62 t/s	-0.1%
`tg512`	73.71 t/s	73.68 t/s	~0.0%
`tg128 @ d4096`	72.60 t/s	72.47 t/s	-0.2%
`tg512 @ d4096`	72.47 t/s	72.50 t/s	+0.0%
`tg128 @ d8192`	71.70 t/s	71.57 t/s	-0.2%
`tg512 @ d8192`	71.65 t/s	71.61 t/s	-0.1%
`tg128 @ d16384`	70.10 t/s	70.04 t/s	-0.1%
`tg512 @ d16384`	70.08 t/s	69.90 t/s	-0.3%
`tg128 @ d32768`	67.00 t/s	66.88 t/s	-0.2%
`tg512 @ d32768`	66.98 t/s	66.98 t/s	0.0%

トークン生成の性能は、2つのビルド間で本質的に同一です。わずかな差は、通常のベンチマークノイズの範囲内です。

つまり、ネイティブNVFP4対応はプリフィル経路を改善しますが、自律回帰的（autoregressive）デコードを目立って高速化するわけではありません。

コンテキスト長の挙動

両方のビルドで、コンテキスト長が増えるにつれて徐々に速度が低下します。トークン生成では低下の程度がほぼ同じです：

Context	b8966 `tg512`	b8967 `tg512`
base	73.71 t/s	73.68 t/s
`d4096`	72.47 t/s	72.50 t/s
`d8192`	71.65 t/s	71.61 t/s
`d16384`	70.08 t/s	69.90 t/s
`d32768`	66.98 t/s	66.98 t/s

ベースのテストからd32768へ進むと、生成速度は約73.7 t/sから67.0 t/sへ低下し、これは約9%の減少にとどまります。これは長いコンテキストにおける27Bモデルとして健全な結果です。

プロンプト処理については、b8967は全範囲で大幅に高速なままですが、非常に長いコンテキストサイズでは相対的な優位性が縮小します：

Context	b8966 `pp2048`	b8967 `pp2048`	Improvement
base	3373.30 t/s	5594.58 t/s	+65.8%
`d4096`	3231.69 t/s	5272.82 t/s	+63.2%
`d8192`	3117.80 t/s	5005.44 t/s	+60.5%
`d16384`	2934.26 t/s	4547.25 t/s	+55.0%
`d32768`	2479.39 t/s	3560.58 t/s	+43.6%

Final takeaway

ネイティブNVFP4サポートを備えたb8967は、RTX 5090システム上のQwen3.6-27B-NVFP4に対して、b8966より明らかに優れています。

これは大きなプロンプト処理の改善をもたらします――おおよそ1.4×〜1.7×高速なプリフィル――一方で、トークン生成速度は実質的に変わりません。

そのため実用上のメリットは、「生成中の1秒あたりトークン数が増えること」ではなく、むしろ大きなプロンプトの取り込みが大幅に速くなり、長いプロンプトでの最初のトークンまでの時間が短縮され、長いコンテキストのワークロードでの使い勝手が向上することです。

以下の投稿者によって提出 /u/mossy_troll_84
[link] [comments]

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

AIエージェントのループ向けに作られたAPIテストツール