1x RTX Pro 6000 上での Gemma-4-31B NVFP4推論数値

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者は、NVIDIA の Hugging Face チェックポイント `nvidia/Gemma-4-31B-IT-NVFP4`(NVFP4 約32GB)を、単一の `1x RTX Pro 6000` 上でベンチマークし、vLLM と Locust を用いて定常状態で推論を実行した。
  • この構成では KV キャッシュのメモリが VRAM の主要な消費要因になるため、収まりを良くして性能を安定させる目的で KV キャッシュの精度を FP8 に低減した。
  • ユーザあたりの生成スループット(例:1ユーザで 1K〜8K コンテキスト時に約 36〜40 tok/s)は、コンテキスト長が伸びるほど、また同時実行数が増えるほど低下し、非常に長いコンテキスト(例:4ユーザで 96K)では急激に落ち込む。
  • 最初のトークンまでの時間(TTFT)も、より長いプロンプトや高い同時実行数により大きく増加する。1K で 1〜4ユーザ時に約 0.1〜0.2s だったのが、1ユーザで 128K では約 47.7s に達する。
  • 投稿には、インタラクティブなレイテンシとスループットを維持しつつ、8K コンテキストでどれくらいの同時ユーザ数を支えられるかを推定するための追加の容量テストが含まれている。

gemma 4 31B を NVFP4(nvidia/Gemma-4-31B-IT-NVFP4 を使用)で、簡単に推論のスイープを実行しました。NVFP4 のチェックポイントは 32GB で、google の BF16 サイズ(63GB)の半分です。おそらく BF16 と FP4 の混合で、だいたい FP8 と同程度のサイズ感です。このモデルは kv キャッシュにかなりの量の VRAM を使います。そこで、kv キャッシュの精度を FP8 に落としました。

すべての数値は、locust を使って継続的に負荷をかけたときの定常状態の平均です。以下の数値は、ユーザーのインタラクティビティを示すための 1 ユーザーあたりの指標です。出力 1K。vLLM。

ユーザーあたり生成速度(tok/s)

コンテキスト 1 User 2 Users 3 Users 4 Users
1K 40.7 36.6 36.1 35.1
8K 39.9 36.5 34.8 32.7
32K 40.5 28.9 25.3 23.5
64K 44.5 27.4 26.7 14.3
96K 34.4 19.5 12.5 9.5
128K 38.3 - - -

最初のトークンまでの時間

コンテキスト 1 User 2 Users 3 Users 4 Users
1K 0.1s 0.1s 0.2s 0.2s
8K 1.0s 1.4s 1.7s 2.0s
32K 5.5s 8.1s 10.0s 12.6s
64K 15.3s 22.4s 27.7s 28.7s
96K 29.6s 42.3s 48.6s 56.7s
128K 47.7s - - -

ユーザー容量を見つけるための 8k コンテキストでの追加テスト

同時 1 2 3 4 23 25 30 32
デコード(tok/s) 39.9 36.5 34.8 32.8 22.5 18.5 16.6 15.3
TTFT 1.0s 1.4s 1.7s 2.0s 7.7s 7.4s 8.9s 9.3s

デコード速度は、この GPU 上での Qwen3.5 27B FP8 と同じくらいの水準です。しかしプリフィルがずっと遅い。特に複数ユーザーで長いコンテキストを使えるようにするには、キャッシュを有効化する必要があるでしょう。

今後数日で目立った性能改善があれば、再テストします。他の Gemma モデル向けの FP8 チェックポイントも探してテストする予定です。このカードで BF16 重みを試す意味はありません。

submitted by /u/jnmi235
[link] [comments]