RTX Pro 6000 上の Mistral-Small-4-119B-2603 NVFP4 の推論性能指標

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

ベンチマークは、SGLang を搭載した RTX Pro 6000 上で実行される Mistral-Small-4-119B-2603 NVFP4 を評価します。コンテキストサイズは 1K から 256K まで変化させ、同時リクエストは 1～5 件、出力トークン数は 1024、プロンプトキャッシュなし、推測的デコードなし、そして全精度の KV キャッシュを使用します。

RTX Pro 6000カード上でベンチマークした Mistral-Small-4-119B-2603 NVFP4。SGLangを使用し、コンテキストは1Kから256K、1〜5の同時リクエスト、各リクエストあたり1024の出力トークン。プロンプトキャッシュなし、推測的デコードなし（NVFP4モデルでは動作させることができませんでした）、全精度KVキャッシュ。以下が方法論です。

ユーザー別生成速度 (tok/s)

コンテキスト	1 ユーザー	2 ユーザー	3 ユーザー	5 ユーザー
1K	131.3	91.2	78.2	67.3
8K	121.4	84.5	74.1	61.7
32K	110.0	75.9	63.6	53.3
64K	96.9	68.7	55.5	45.0
96K	86.7	60.4	49.7	38.1
128K	82.2	56.2	44.7	33.8
256K	64.2	42.8	N/A	N/A

最初のトークンまでの時間

コンテキスト	1 ユーザー	2 ユーザー	3 ユーザー	5 ユーザー
1K	0.5秒	0.6秒	0.7秒	0.8秒
8K	0.9秒	1.5秒	2.0秒	2.1秒
32K	2.5秒	4.5秒	6.6秒	10.6秒
64K	6.3秒	11.9秒	17.5秒	28.7秒
96K	11.8秒	23.0秒	34.0秒	56.0秒
128K	19.2秒	37.6秒	55.9秒	92.3秒
256K	66.8秒	131.9秒	N/A	N/A

用途別容量

以下の閾値を超えない最高同時実行数を見つけました。すべてキャッシュなしで、毎回フルプロンプトを処理しています。

ユースケース	TTFT閾値	速度閾値	最大同時実行数
コード補完 (1K) (128 出力)	2秒 e2e	該当なし	5
ショートフォームチャットボット (8K)	10秒	10 トークン/秒	19
一般的なチャットボット (32K)	8秒	15 トークン/秒	3
長文処理 (64K)	12秒	15 トークン/秒	2
自動コード補助ツール (96K)	12秒	20 トークン/秒	1

シングルユーザーのパフォーマンスは、デコードとTTFTの両方で概ね良好です。より高い同時実行時にはTTFTが指標となります。CUDAグラフの余裕を確保するために --mem-fraction-static 0.87 を設定し、KVキャッシュは15.06GB、SGLangによる総トークン数は703Kとなりました。これは、いくつかの同時利用者に対してTTFTを大幅に改善するのに役立つ、キャッシュとして十分な量です。Mistralのカスタムコンテナを使用してvLLMをテストしましたが、TTFTは改善しましたがデコードはずっと遅く、特に長いコンテキスト長で顕著でした。そのvLLMコンテナとこのカードにはいくつかの問題があると推測します。推測的デコードを機能させることもできませんでした。現時点ではFP8モデルのみサポートされていると思います。