Nemotron-3-Super-120B-A12B NVFP4 推論ベンチマーク：1台の RTX Pro 6000 Blackwell 上で

Reddit r/LocalLLaMA / 2026/3/13

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

Nemotron-3-Super-120B-A12B NVFP4 は、1台の RTX Pro 6000 上で vLLM を用い fp8 KV キャッシュでベンチマークされ、1K から 512K までのコンテキスト、1～5 の同時リクエスト、リクエストあたり 1024 出力トークンでテストされ、結果は持続負荷下での定常状態の平均として報告されました。
ユーザーあたりの生成速度（トークン/秒）は、コンテキストサイズと同時ユーザー数の両方が増えると低下します。例として、1K コンテキスト/1 ユーザーで約 69.9 tok/s、5 ユーザーで約 41.4 tok/s、128K コンテキスト/5 ユーザーで約 18.6 tok/s。
最初のトークンまでの時間は、より大きなコンテキストとより多くのユーザーにより増加します。例えば、1K コンテキストでは単一ユーザーで約 0.1–0.2s、128K コンテキストでは約 12.1s、ユーザー数が増えるとさらに長くなります。
本研究はチーム志向のベンチマークであり、ピーク時の単一ユーザー性能を最適化したものではありません。方法論の詳細は下部に記載されており、プロンプトキャッシュはなく、fp8 KV キャッシュ設定は Nvidia のアプローチに従います。

Nemotron-3-Super-120B-A12B NVFP4を、vLLMを使用して1台のRTX Pro 6000上でフルベンチマークスイープを実施しました。fp8 KVキャッシュ（Nvidiaの設定に従うが、彼らのメトリクスがfp8 KVキャッシュでテストされたかどうかは不明）。コンテキストは1Kから512K、1〜5の同時リクエスト、リクエストあたり1024出力トークン。プロンプトキャッシュなし。

数値は持続負荷下での定常状態の平均です。これはチーム志向のベンチマークであり、ピーク時の単一ユーザー性能には合わせていません。方法論の詳細は下部に記載しています。

ユーザーあたりの生成速度（トークン/秒）

コンテキスト	1 ユーザー	2 ユーザー	3 ユーザー	5 ユーザー
1K	69.9	58.3	52.7	41.4
8K	70.8	65.7	47.8	38.8
32K	75.1	59.8	45.5	37.2
64K	67.7	50.6	40.8	27.9
96K	67.3	52.5	34.1	22.9
128K	66.8	42.6	35.0	18.6
256K	65.2	29.6	18.4	N/A
512K	62.3	N/A	N/A	N/A

最初のトークンまでの時間

コンテキスト	1 ユーザー	2 ユーザー	3 ユーザー	5 ユーザー
1K	0.1s	0.2s	0.2s	0.2s
8K	0.6s	0.9s	1.1s	1.2s
32K	2.3s	3.6s	4.7s	6.8s
64K	5.0s	7.6s	10.3s	14.5s
96K	8.3s	12.7s	16.8s	23.4s
128K	12.1s	18.4s	24.4s	32.5s
256K	32.6s	47.2s	64.7s	N/A
512K	98.4s	N/A	N/A	N/A

用途別容量

各行は各ワークロードの閾値を持ち、それらの限界内で安定して動作する最大の同時リクエスト数を示します。キャッシュ無しの最悪ケースです。これらは私自身の閾値にすぎませんが、容量チャートは完全レポートに掲載されています。

ユースケース	TTFT閾値	速度閾値	最大同時実行数
コード補完（1K）	2s e2e	N/A	1
ショートフォーム・チャットボット（8K）	10s	10 tok/s	70
一般的なチャットボット（32K）	8s	15 tok/s	7
長文処理（64K）	12s	15 tok/s	3
自動コーディングアシスタント（96K）	12s	20 tok/s	1

モデルのウェイトをロードした後、KVキャッシュには約14GBのVRAMしか残りませんでした。コンテキスト長を1Mに設定してみると、エラーなくロードされ、ログには「リクエストあたり1,048,576トークンの最大同時実行数: 3.27x」と表示されました。とはいえ実際には1Mでリクエストを完了することはできず、計算リソースの制限が原因と思われます。768Kのリクエストは完了しましたが、TTFTは3分を超えました。おそらく2枚のカードで1Mを処理できる見込みで、近々テストする予定です。

単一ユーザーのデコード速度は予想より遅いですが、コンテキスト長に関係なく速度は維持されます。512K時の62.3 tok/sは、1K時の69.9 tok/sからの11%の低下にとどまります。

SGLangをうまく動かすのに苦労しました。うまく動作すれば、vLLMよりもデコード速度が速くなる可能性があります。

方法論ノート

このベンチマークは、同時実行/複数ユーザーのワークロードを対象としています。1人用に調整された設定であれば、単一ユーザーの速度はこれより向上します。

TTFTのすべての数値はプロンプトキャッシュなしのため、これはコールドプリフィル時間です。キャッシュを使用すれば、プリフィルがボトルネックとなる箇所でTTFTを大幅に短縮します。数値は定常状態で、バースト値ではありません。

このテスト方法: https://www.millstoneai.com/inference-benchmark-methodology

interactive charts を含む完全レポート: https://www.millstoneai.com/inference-benchmark/nemotron-3-super-120b-a12b-nvfp4-1x-rtx-pro-6000-blackwell

submitted by /u/jnmi235
[リンク] [コメント]

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

Dev.to

テックキャリアに4年間も費やしている

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論！ | smolcluster

Reddit r/MachineLearning

NVIDIA V100 32GB が Qwen Coder 30B A3B Q5 で約115トークン/秒を達成

Reddit r/LocalLLaMA

Nemotron-3-Super-120B-A12B NVFP4 推論ベンチマーク：1台の RTX Pro 6000 Blackwell 上で

要点

ユーザーあたりの生成速度（トークン/秒）

最初のトークンまでの時間

用途別容量

方法論ノート

関連記事

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

テックキャリアに4年間も費やしている

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論！ | smolcluster

NVIDIA V100 32GB が Qwen Coder 30B A3B Q5 で約115トークン/秒を達成

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer