1x RTX Pro 6000 上での Gemma-4-31B NVFP4推論数値

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

著者は、NVIDIA の Hugging Face チェックポイント `nvidia/Gemma-4-31B-IT-NVFP4`（NVFP4 約32GB）を、単一の `1x RTX Pro 6000` 上でベンチマークし、vLLM と Locust を用いて定常状態で推論を実行した。
この構成では KV キャッシュのメモリが VRAM の主要な消費要因になるため、収まりを良くして性能を安定させる目的で KV キャッシュの精度を FP8 に低減した。
ユーザあたりの生成スループット（例：1ユーザで 1K〜8K コンテキスト時に約 36〜40 tok/s）は、コンテキスト長が伸びるほど、また同時実行数が増えるほど低下し、非常に長いコンテキスト（例：4ユーザで 96K）では急激に落ち込む。
最初のトークンまでの時間（TTFT）も、より長いプロンプトや高い同時実行数により大きく増加する。1K で 1〜4ユーザ時に約 0.1〜0.2s だったのが、1ユーザで 128K では約 47.7s に達する。
投稿には、インタラクティブなレイテンシとスループットを維持しつつ、8K コンテキストでどれくらいの同時ユーザ数を支えられるかを推定するための追加の容量テストが含まれている。

gemma 4 31B を NVFP4（nvidia/Gemma-4-31B-IT-NVFP4 を使用）で、簡単に推論のスイープを実行しました。NVFP4 のチェックポイントは 32GB で、google の BF16 サイズ（63GB）の半分です。おそらく BF16 と FP4 の混合で、だいたい FP8 と同程度のサイズ感です。このモデルは kv キャッシュにかなりの量の VRAM を使います。そこで、kv キャッシュの精度を FP8 に落としました。

すべての数値は、locust を使って継続的に負荷をかけたときの定常状態の平均です。以下の数値は、ユーザーのインタラクティビティを示すための 1 ユーザーあたりの指標です。出力 1K。vLLM。