RTX Pro 6000カード上でベンチマークした Mistral-Small-4-119B-2603 NVFP4。SGLangを使用し、コンテキストは1Kから256K、1〜5の同時リクエスト、各リクエストあたり1024の出力トークン。プロンプトキャッシュなし、推測的デコードなし(NVFP4モデルでは動作させることができませんでした)、全精度KVキャッシュ。以下が方法論です。
ユーザー別生成速度 (tok/s)
| コンテキスト | 1 ユーザー | 2 ユーザー | 3 ユーザー | 5 ユーザー |
|---|---|---|---|---|
| 1K | 131.3 | 91.2 | 78.2 | 67.3 |
| 8K | 121.4 | 84.5 | 74.1 | 61.7 |
| 32K | 110.0 | 75.9 | 63.6 | 53.3 |
| 64K | 96.9 | 68.7 | 55.5 | 45.0 |
| 96K | 86.7 | 60.4 | 49.7 | 38.1 |
| 128K | 82.2 | 56.2 | 44.7 | 33.8 |
| 256K | 64.2 | 42.8 | N/A | N/A |
最初のトークンまでの時間
| コンテキスト | 1 ユーザー | 2 ユーザー | 3 ユーザー | 5 ユーザー |
|---|---|---|---|---|
| 1K | 0.5秒 | 0.6秒 | 0.7秒 | 0.8秒 |
| 8K | 0.9秒 | 1.5秒 | 2.0秒 | 2.1秒 |
| 32K | 2.5秒 | 4.5秒 | 6.6秒 | 10.6秒 |
| 64K | 6.3秒 | 11.9秒 | 17.5秒 | 28.7秒 |
| 96K | 11.8秒 | 23.0秒 | 34.0秒 | 56.0秒 |
| 128K | 19.2秒 | 37.6秒 | 55.9秒 | 92.3秒 |
| 256K | 66.8秒 | 131.9秒 | N/A | N/A |
用途別容量
以下の閾値を超えない最高同時実行数を見つけました。すべてキャッシュなしで、毎回フルプロンプトを処理しています。
| ユースケース | TTFT閾値 | 速度閾値 | 最大同時実行数 |
|---|---|---|---|
| コード補完 (1K) (128 出力) | 2秒 e2e | 該当なし | 5 |
| ショートフォームチャットボット (8K) | 10秒 | 10 トークン/秒 | 19 |
| 一般的なチャットボット (32K) | 8秒 | 15 トークン/秒 | 3 |
| 長文処理 (64K) | 12秒 | 15 トークン/秒 | 2 |
| 自動コード補助ツール (96K) | 12秒 | 20 トークン/秒 | 1 |
シングルユーザーのパフォーマンスは、デコードとTTFTの両方で概ね良好です。より高い同時実行時にはTTFTが指標となります。CUDAグラフの余裕を確保するために --mem-fraction-static 0.87 を設定し、KVキャッシュは15.06GB、SGLangによる総トークン数は703Kとなりました。これは、いくつかの同時利用者に対してTTFTを大幅に改善するのに役立つ、キャッシュとして十分な量です。Mistralのカスタムコンテナを使用してvLLMをテストしましたが、TTFTは改善しましたがデコードはずっと遅く、特に長いコンテキスト長で顕著でした。そのvLLMコンテナとこのカードにはいくつかの問題があると推測します。推測的デコードを機能させることもできませんでした。現時点ではFP8モデルのみサポートされていると思います。
方法論ノート
TTFTの数値はすべてキャッシュなしの最悪ケースです。キャッシュを使えばTTFTはかなり低下します。数値は、持続的な負荷(Locustベース)下での定常状態の平均であり、バーストではありません。
方法論: https://www.millstoneai.com/inference-benchmark-methodology
[リンク] [コメント]




