AI Navigate

Nemotron-3-Super-120B-A12B NVFP4 推論ベンチマーク:1台の RTX Pro 6000 Blackwell 上で

Reddit r/LocalLLaMA / 2026/3/13

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • Nemotron-3-Super-120B-A12B NVFP4 は、1台の RTX Pro 6000 上で vLLM を用い fp8 KV キャッシュでベンチマークされ、1K から 512K までのコンテキスト、1~5 の同時リクエスト、リクエストあたり 1024 出力トークンでテストされ、結果は持続負荷下での定常状態の平均として報告されました。
  • ユーザーあたりの生成速度(トークン/秒)は、コンテキストサイズと同時ユーザー数の両方が増えると低下します。例として、1K コンテキスト/1 ユーザーで約 69.9 tok/s、5 ユーザーで約 41.4 tok/s、128K コンテキスト/5 ユーザーで約 18.6 tok/s。
  • 最初のトークンまでの時間は、より大きなコンテキストとより多くのユーザーにより増加します。例えば、1K コンテキストでは単一ユーザーで約 0.1–0.2s、128K コンテキストでは約 12.1s、ユーザー数が増えるとさらに長くなります。
  • 本研究はチーム志向のベンチマークであり、ピーク時の単一ユーザー性能を最適化したものではありません。方法論の詳細は下部に記載されており、プロンプトキャッシュはなく、fp8 KV キャッシュ設定は Nvidia のアプローチに従います。

Nemotron-3-Super-120B-A12B NVFP4を、vLLMを使用して1台のRTX Pro 6000上でフルベンチマークスイープを実施しました。fp8 KVキャッシュ(Nvidiaの設定に従うが、彼らのメトリクスがfp8 KVキャッシュでテストされたかどうかは不明)。コンテキストは1Kから512K、1〜5の同時リクエスト、リクエストあたり1024出力トークン。プロンプトキャッシュなし。

数値は持続負荷下での定常状態の平均です。これはチーム志向のベンチマークであり、ピーク時の単一ユーザー性能には合わせていません。方法論の詳細は下部に記載しています。

ユーザーあたりの生成速度(トークン/秒)

コンテキスト 1 ユーザー 2 ユーザー 3 ユーザー 5 ユーザー
1K 69.9 58.3 52.7 41.4
8K 70.8 65.7 47.8 38.8
32K 75.1 59.8 45.5 37.2
64K 67.7 50.6 40.8 27.9
96K 67.3 52.5 34.1 22.9
128K 66.8 42.6 35.0 18.6
256K 65.2 29.6 18.4 N/A
512K 62.3 N/A N/A N/A

最初のトークンまでの時間

コンテキスト 1 ユーザー 2 ユーザー 3 ユーザー 5 ユーザー
1K 0.1s 0.2s 0.2s 0.2s
8K 0.6s 0.9s 1.1s 1.2s
32K 2.3s 3.6s 4.7s 6.8s
64K 5.0s 7.6s 10.3s 14.5s
96K 8.3s 12.7s 16.8s 23.4s
128K 12.1s 18.4s 24.4s 32.5s
256K 32.6s 47.2s 64.7s N/A
512K 98.4s N/A N/A N/A

用途別容量

各行は各ワークロードの閾値を持ち、それらの限界内で安定して動作する最大の同時リクエスト数を示します。キャッシュ無しの最悪ケースです。これらは私自身の閾値にすぎませんが、容量チャートは完全レポートに掲載されています。

ユースケース TTFT閾値 速度閾値 最大同時実行数
コード補完(1K) 2s e2e N/A 1
ショートフォーム・チャットボット(8K) 10s 10 tok/s 70
一般的なチャットボット(32K) 8s 15 tok/s 7
長文処理(64K) 12s 15 tok/s 3
自動コーディングアシスタント(96K) 12s 20 tok/s 1

モデルのウェイトをロードした後、KVキャッシュには約14GBのVRAMしか残りませんでした。コンテキスト長を1Mに設定してみると、エラーなくロードされ、ログには「リクエストあたり1,048,576トークンの最大同時実行数: 3.27x」と表示されました。とはいえ実際には1Mでリクエストを完了することはできず、計算リソースの制限が原因と思われます。768Kのリクエストは完了しましたが、TTFTは3分を超えました。おそらく2枚のカードで1Mを処理できる見込みで、近々テストする予定です。

単一ユーザーのデコード速度は予想より遅いですが、コンテキスト長に関係なく速度は維持されます。512K時の62.3 tok/sは、1K時の69.9 tok/sからの11%の低下にとどまります。

SGLangをうまく動かすのに苦労しました。うまく動作すれば、vLLMよりもデコード速度が速くなる可能性があります。

方法論ノート

このベンチマークは、同時実行/複数ユーザーのワークロードを対象としています。1人用に調整された設定であれば、単一ユーザーの速度はこれより向上します。

TTFTのすべての数値はプロンプトキャッシュなしのため、これはコールドプリフィル時間です。キャッシュを使用すれば、プリフィルがボトルネックとなる箇所でTTFTを大幅に短縮します。数値は定常状態で、バースト値ではありません。

このテスト方法: https://www.millstoneai.com/inference-benchmark-methodology

interactive charts を含む完全レポート: https://www.millstoneai.com/inference-benchmark/nemotron-3-super-120b-a12b-nvfp4-1x-rtx-pro-6000-blackwell

submitted by /u/jnmi235
[リンク] [コメント]