AI Navigate

RTX Pro 6000 上の Mistral-Small-4-119B-2603 NVFP4 の推論性能指標

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンTools & Practical UsageModels & Research

要点

  • ベンチマークは、SGLang を搭載した RTX Pro 6000 上で実行される Mistral-Small-4-119B-2603 NVFP4 を評価します。コンテキストサイズは 1K から 256K まで変化させ、同時リクエストは 1~5 件、出力トークン数は 1024、プロンプトキャッシュなし、推測的デコードなし、そして全精度の KV キャッシュを使用します。

RTX Pro 6000カード上でベンチマークした Mistral-Small-4-119B-2603 NVFP4。SGLangを使用し、コンテキストは1Kから256K、1〜5の同時リクエスト、各リクエストあたり1024の出力トークン。プロンプトキャッシュなし、推測的デコードなし(NVFP4モデルでは動作させることができませんでした)、全精度KVキャッシュ。以下が方法論です。

ユーザー別生成速度 (tok/s)

コンテキスト 1 ユーザー 2 ユーザー 3 ユーザー 5 ユーザー
1K 131.3 91.2 78.2 67.3
8K 121.4 84.5 74.1 61.7
32K 110.0 75.9 63.6 53.3
64K 96.9 68.7 55.5 45.0
96K 86.7 60.4 49.7 38.1
128K 82.2 56.2 44.7 33.8
256K 64.2 42.8 N/A N/A

最初のトークンまでの時間

コンテキスト 1 ユーザー 2 ユーザー 3 ユーザー 5 ユーザー
1K 0.5秒 0.6秒 0.7秒 0.8秒
8K 0.9秒 1.5秒 2.0秒 2.1秒
32K 2.5秒 4.5秒 6.6秒 10.6秒
64K 6.3秒 11.9秒 17.5秒 28.7秒
96K 11.8秒 23.0秒 34.0秒 56.0秒
128K 19.2秒 37.6秒 55.9秒 92.3秒
256K 66.8秒 131.9秒 N/A N/A

用途別容量

以下の閾値を超えない最高同時実行数を見つけました。すべてキャッシュなしで、毎回フルプロンプトを処理しています。

ユースケース TTFT閾値 速度閾値 最大同時実行数
コード補完 (1K) (128 出力) 2秒 e2e 該当なし 5
ショートフォームチャットボット (8K) 10秒 10 トークン/秒 19
一般的なチャットボット (32K) 8秒 15 トークン/秒 3
長文処理 (64K) 12秒 15 トークン/秒 2
自動コード補助ツール (96K) 12秒 20 トークン/秒 1

シングルユーザーのパフォーマンスは、デコードとTTFTの両方で概ね良好です。より高い同時実行時にはTTFTが指標となります。CUDAグラフの余裕を確保するために --mem-fraction-static 0.87 を設定し、KVキャッシュは15.06GB、SGLangによる総トークン数は703Kとなりました。これは、いくつかの同時利用者に対してTTFTを大幅に改善するのに役立つ、キャッシュとして十分な量です。Mistralのカスタムコンテナを使用してvLLMをテストしましたが、TTFTは改善しましたがデコードはずっと遅く、特に長いコンテキスト長で顕著でした。そのvLLMコンテナとこのカードにはいくつかの問題があると推測します。推測的デコードを機能させることもできませんでした。現時点ではFP8モデルのみサポートされていると思います。

方法論ノート

TTFTの数値はすべてキャッシュなしの最悪ケースです。キャッシュを使えばTTFTはかなり低下します。数値は、持続的な負荷(Locustベース)下での定常状態の平均であり、バーストではありません。

方法論: https://www.millstoneai.com/inference-benchmark-methodology

完全レポート: https://www.millstoneai.com/inference-benchmark/mistral-small-4-119b-2603-nvfp4-1x-rtx-pro-6000-blackwell

投稿者 /u/jnmi235
[リンク] [コメント]