Nemotron 3 Super - llama.cpp と vLLM の間で大きな品質差があるのはなぜ？

Reddit r/LocalLLaMA / 2026/3/29

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep Analysis

共有:

要点

著者は、同一の非公開の推論／知識ベンチマークにおいて vLLM と llama.cpp の両方で Nemotron 3 Super の性能を比較し、vLLM の方が大幅に高い結果（55.4% 対 40.2%）を得た。
ベンチマークの設定では「thinking」を無効化し、temperature を 0.7 に設定し、他のパラメータはデフォルト付近に維持しているため、その差は温度／top-p の選択によるものではない可能性がある。
NVFP4 形式に固有の問題ではないと考えており、同様の傾向は他の量子化（一般に Q4／Q8／F16）でも見られること、また別の量子化バリアントでも（llama.cpp で約 40% という）同程度の値になることを挙げている。
Gemma 3 27B を用いたクロスモデルの妥当性確認では、llama.cpp と vLLM の結果がほぼ同一であったため、この食い違いは Nemotron 3 Super に特有、またはそれが扱われる方法に起因している可能性がある。
著者は、大きな品質差を説明し得る追加の生成／実行パラメータ、あるいは vLLM と llama.cpp の実装上の違いがあるかどうかを問いかけており、新しい llama.cpp バージョン間で変化が見られなかったことにも言及している。

みなさん、

モデルを評価するために使いたい、非公開の知識／推論ベンチマークがあります。問題数は400問以上で、思考モードを前提としない（非思考モード向けの）内容で、プログラムによってスコア付けされます。少なくとも自分の用途では、モデルの品質とかなりよく相関しているように見えます。小型モデル（24～32B）はだいたい~40%で、より大きいモデル（70B dense、またはそれよりやや大きいMoE）はしばしば~50%です。そして、自分が実行できる最大規模のもの（Devstral 2／GLM 4.5-7 の低量子化）では~60%まで到達します。

Nemotron 3 Superのリリース時には、llama.cppのサポートがすぐには入っていないように見えたので、NVFP4版を動かすためにvLLMを試してみました。テストでは意外なほど良い結果で、1問あたり10回の試行で55.4%でした。同程度のスコアはGPT-OSS-120B（中～高努力）といったところです。しかし、llama.cppでモデルを動かすと、かなり悪化します：1問あたり20回の試行で40.2%（unsloth Q4_K_XL）です。

どちらのログも比較的「普通」に見えます。もちろんggufの方がエラーは多く（平均の応答も少し短め）、それでも筋の通った文章は生成できています。ベンチマークスクリプトは、どちらの場合も思考を無効化するために{"enable_thinking": false}を渡し、温度を0.7に設定し、それ以外はほとんどのパラメータをデフォルトのままにしています。さらに、llama.cppでnvidia推奨の温度1.0でも再実行しましたが、違いは見られませんでした。一般に、このテストでは温度が大きな影響を与えるとは見つけられていません。top-p 0.95を推奨している点もありますが、それも結局はデフォルトのようです。

自分の観測では、Q4_*、Q8_0、F16のggufの間で大きな有意差はほとんど見られないので、NVFP4に「魔法」があるようにしてこれほど改善するとは考えにくいです。bartowskiのQ4_K_M量子化も試しましたが、同様に~40%のスコアでした。

かなり基本的な起動コマンドです。たとえば次のように：vllm serve "unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4" --port 8080 --trust-remote-code --gpu-memory-utilization 0.85とllama-server -c (whatever) -m NVIDIA-Nemotron-3-Super-120B-A12B-UD-Q4_K_XL.gguf。

というわけで質問：こちらが見落としている、これらの間で世代（生成）パラメータに大きな違いがあって、それが原因になっている可能性はありますか？あるいは別の説明があるのでしょうか。最初の実装にバグがあった場合を考えて少し様子を見ましたが、新しいllama.cppのバージョンにしても変化が見られませんでした。

絞り込みのために別のモデルでも試しました：

koboldcpp、gemma 3 27B Q8：40.2%
llama.cpp、gemma 3 27B Q8：40.6%
vLLM、gemma 3 27B F16：40.0%

ほぼ見分けがつきません。ここでの各セットは5回の試行／1問で、こちらが期待するような種類の差でした。

vllm 0.17.1、llama.cpp 8522を使用。

submitted by /u/BigStupidJellyfish_
[link] [comments]

Black Hat Asia

AI Business

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

日経XTECH

「Galaxy S26 Ultra」、のぞき見防ぐ最上機買って分かったAIの進化

日経XTECH

IPA、情報処理技術者試験に新試験制度を導入へ　「データマネジメント試験」など新設＆ITパスポートの試験範囲も拡大か

ITmedia AI+

MicrosoftのAI「Copilot」が勝手にプルリクエストに広告を挿入

GIGAZINE

Nemotron 3 Super - llama.cpp と vLLM の間で大きな品質差があるのはなぜ？

要点

関連記事

Black Hat Asia

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

「Galaxy S26 Ultra」、のぞき見防ぐ最上機買って分かったAIの進化

IPA、情報処理技術者試験に新試験制度を導入へ　「データマネジメント試験」など新設＆ITパスポートの試験範囲も拡大か

MicrosoftのAI「Copilot」が勝手にプルリクエストに広告を挿入

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ラピダスCTO、1ナノでTSMCと「半年差に」 まずは信頼獲得から

「Galaxy S26 Ultra」、のぞき見防ぐ最上機 買って分かったAIの進化

IPA、情報処理技術者試験に新試験制度を導入へ 「データマネジメント試験」など新設＆ITパスポートの試験範囲も拡大か

MicrosoftのAI「Copilot」が勝手にプルリクエストに広告を挿入

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

「Galaxy S26 Ultra」、のぞき見防ぐ最上機買って分かったAIの進化

IPA、情報処理技術者試験に新試験制度を導入へ　「データマネジメント試験」など新設＆ITパスポートの試験範囲も拡大か