みなさん、
モデルを評価するために使いたい、非公開の知識/推論ベンチマークがあります。問題数は400問以上で、思考モードを前提としない(非思考モード向けの)内容で、プログラムによってスコア付けされます。少なくとも自分の用途では、モデルの品質とかなりよく相関しているように見えます。小型モデル(24~32B)はだいたい~40%で、より大きいモデル(70B dense、またはそれよりやや大きいMoE)はしばしば~50%です。そして、自分が実行できる最大規模のもの(Devstral 2/GLM 4.5-7 の低量子化)では~60%まで到達します。
Nemotron 3 Superのリリース時には、llama.cppのサポートがすぐには入っていないように見えたので、NVFP4版を動かすためにvLLMを試してみました。テストでは意外なほど良い結果で、1問あたり10回の試行で55.4%でした。同程度のスコアはGPT-OSS-120B(中~高努力)といったところです。しかし、llama.cppでモデルを動かすと、かなり悪化します:1問あたり20回の試行で40.2%(unsloth Q4_K_XL)です。
どちらのログも比較的「普通」に見えます。もちろんggufの方がエラーは多く(平均の応答も少し短め)、それでも筋の通った文章は生成できています。ベンチマークスクリプトは、どちらの場合も思考を無効化するために{"enable_thinking": false}を渡し、温度を0.7に設定し、それ以外はほとんどのパラメータをデフォルトのままにしています。さらに、llama.cppでnvidia推奨の温度1.0でも再実行しましたが、違いは見られませんでした。一般に、このテストでは温度が大きな影響を与えるとは見つけられていません。top-p 0.95を推奨している点もありますが、それも結局はデフォルトのようです。
自分の観測では、Q4_*、Q8_0、F16のggufの間で大きな有意差はほとんど見られないので、NVFP4に「魔法」があるようにしてこれほど改善するとは考えにくいです。bartowskiのQ4_K_M量子化も試しましたが、同様に~40%のスコアでした。
かなり基本的な起動コマンドです。たとえば次のように:vllm serve "unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4" --port 8080 --trust-remote-code --gpu-memory-utilization 0.85とllama-server -c (whatever) -m NVIDIA-Nemotron-3-Super-120B-A12B-UD-Q4_K_XL.gguf。
というわけで質問:こちらが見落としている、これらの間で世代(生成)パラメータに大きな違いがあって、それが原因になっている可能性はありますか? あるいは別の説明があるのでしょうか。最初の実装にバグがあった場合を考えて少し様子を見ましたが、新しいllama.cppのバージョンにしても変化が見られませんでした。
絞り込みのために別のモデルでも試しました:
- koboldcpp、gemma 3 27B Q8:40.2%
- llama.cpp、gemma 3 27B Q8:40.6%
- vLLM、gemma 3 27B F16:40.0%
ほぼ見分けがつきません。ここでの各セットは5回の試行/1問で、こちらが期待するような種類の差でした。
vllm 0.17.1、llama.cpp 8522を使用。
[link] [comments]

