gemma 4 31B を NVFP4(nvidia/Gemma-4-31B-IT-NVFP4 を使用)で、簡単に推論のスイープを実行しました。NVFP4 のチェックポイントは 32GB で、google の BF16 サイズ(63GB)の半分です。おそらく BF16 と FP4 の混合で、だいたい FP8 と同程度のサイズ感です。このモデルは kv キャッシュにかなりの量の VRAM を使います。そこで、kv キャッシュの精度を FP8 に落としました。
すべての数値は、locust を使って継続的に負荷をかけたときの定常状態の平均です。以下の数値は、ユーザーのインタラクティビティを示すための 1 ユーザーあたりの指標です。出力 1K。vLLM。
ユーザーあたり生成速度(tok/s)
| コンテキスト | 1 User | 2 Users | 3 Users | 4 Users |
|---|---|---|---|---|
| 1K | 40.7 | 36.6 | 36.1 | 35.1 |
| 8K | 39.9 | 36.5 | 34.8 | 32.7 |
| 32K | 40.5 | 28.9 | 25.3 | 23.5 |
| 64K | 44.5 | 27.4 | 26.7 | 14.3 |
| 96K | 34.4 | 19.5 | 12.5 | 9.5 |
| 128K | 38.3 | - | - | - |
最初のトークンまでの時間
| コンテキスト | 1 User | 2 Users | 3 Users | 4 Users |
|---|---|---|---|---|
| 1K | 0.1s | 0.1s | 0.2s | 0.2s |
| 8K | 1.0s | 1.4s | 1.7s | 2.0s |
| 32K | 5.5s | 8.1s | 10.0s | 12.6s |
| 64K | 15.3s | 22.4s | 27.7s | 28.7s |
| 96K | 29.6s | 42.3s | 48.6s | 56.7s |
| 128K | 47.7s | - | - | - |
ユーザー容量を見つけるための 8k コンテキストでの追加テスト
| 同時 | 1 | 2 | 3 | 4 | 23 | 25 | 30 | 32 |
|---|---|---|---|---|---|---|---|---|
| デコード(tok/s) | 39.9 | 36.5 | 34.8 | 32.8 | 22.5 | 18.5 | 16.6 | 15.3 |
| TTFT | 1.0s | 1.4s | 1.7s | 2.0s | 7.7s | 7.4s | 8.9s | 9.3s |
デコード速度は、この GPU 上での Qwen3.5 27B FP8 と同じくらいの水準です。しかしプリフィルがずっと遅い。特に複数ユーザーで長いコンテキストを使えるようにするには、キャッシュを有効化する必要があるでしょう。
今後数日で目立った性能改善があれば、再テストします。他の Gemma モデル向けの FP8 チェックポイントも探してテストする予定です。このカードで BF16 重みを試す意味はありません。
[link] [comments]




