Nemotron-3-Super-120B-A12B NVFP4を、vLLMを使用して1台のRTX Pro 6000上でフルベンチマークスイープを実施しました。fp8 KVキャッシュ(Nvidiaの設定に従うが、彼らのメトリクスがfp8 KVキャッシュでテストされたかどうかは不明)。コンテキストは1Kから512K、1〜5の同時リクエスト、リクエストあたり1024出力トークン。プロンプトキャッシュなし。
数値は持続負荷下での定常状態の平均です。これはチーム志向のベンチマークであり、ピーク時の単一ユーザー性能には合わせていません。方法論の詳細は下部に記載しています。
ユーザーあたりの生成速度(トークン/秒)
| コンテキスト | 1 ユーザー | 2 ユーザー | 3 ユーザー | 5 ユーザー |
|---|---|---|---|---|
| 1K | 69.9 | 58.3 | 52.7 | 41.4 |
| 8K | 70.8 | 65.7 | 47.8 | 38.8 |
| 32K | 75.1 | 59.8 | 45.5 | 37.2 |
| 64K | 67.7 | 50.6 | 40.8 | 27.9 |
| 96K | 67.3 | 52.5 | 34.1 | 22.9 |
| 128K | 66.8 | 42.6 | 35.0 | 18.6 |
| 256K | 65.2 | 29.6 | 18.4 | N/A |
| 512K | 62.3 | N/A | N/A | N/A |
最初のトークンまでの時間
| コンテキスト | 1 ユーザー | 2 ユーザー | 3 ユーザー | 5 ユーザー |
|---|---|---|---|---|
| 1K | 0.1s | 0.2s | 0.2s | 0.2s |
| 8K | 0.6s | 0.9s | 1.1s | 1.2s |
| 32K | 2.3s | 3.6s | 4.7s | 6.8s |
| 64K | 5.0s | 7.6s | 10.3s | 14.5s |
| 96K | 8.3s | 12.7s | 16.8s | 23.4s |
| 128K | 12.1s | 18.4s | 24.4s | 32.5s |
| 256K | 32.6s | 47.2s | 64.7s | N/A |
| 512K | 98.4s | N/A | N/A | N/A |
用途別容量
各行は各ワークロードの閾値を持ち、それらの限界内で安定して動作する最大の同時リクエスト数を示します。キャッシュ無しの最悪ケースです。これらは私自身の閾値にすぎませんが、容量チャートは完全レポートに掲載されています。
| ユースケース | TTFT閾値 | 速度閾値 | 最大同時実行数 |
|---|---|---|---|
| コード補完(1K) | 2s e2e | N/A | 1 |
| ショートフォーム・チャットボット(8K) | 10s | 10 tok/s | 70 |
| 一般的なチャットボット(32K) | 8s | 15 tok/s | 7 |
| 長文処理(64K) | 12s | 15 tok/s | 3 |
| 自動コーディングアシスタント(96K) | 12s | 20 tok/s | 1 |
モデルのウェイトをロードした後、KVキャッシュには約14GBのVRAMしか残りませんでした。コンテキスト長を1Mに設定してみると、エラーなくロードされ、ログには「リクエストあたり1,048,576トークンの最大同時実行数: 3.27x」と表示されました。とはいえ実際には1Mでリクエストを完了することはできず、計算リソースの制限が原因と思われます。768Kのリクエストは完了しましたが、TTFTは3分を超えました。おそらく2枚のカードで1Mを処理できる見込みで、近々テストする予定です。
単一ユーザーのデコード速度は予想より遅いですが、コンテキスト長に関係なく速度は維持されます。512K時の62.3 tok/sは、1K時の69.9 tok/sからの11%の低下にとどまります。
SGLangをうまく動かすのに苦労しました。うまく動作すれば、vLLMよりもデコード速度が速くなる可能性があります。
方法論ノート
このベンチマークは、同時実行/複数ユーザーのワークロードを対象としています。1人用に調整された設定であれば、単一ユーザーの速度はこれより向上します。
TTFTのすべての数値はプロンプトキャッシュなしのため、これはコールドプリフィル時間です。キャッシュを使用すれば、プリフィルがボトルネックとなる箇所でTTFTを大幅に短縮します。数値は定常状態で、バースト値ではありません。
このテスト方法: https://www.millstoneai.com/inference-benchmark-methodology
interactive charts を含む完全レポート: https://www.millstoneai.com/inference-benchmark/nemotron-3-super-120b-a12b-nvfp4-1x-rtx-pro-6000-blackwell
[リンク] [コメント]

