RTX Pro 6000を活用するためにNVFP4で良いモデル一式を用意しようとしていて、いくつかのハードルを乗り越え、設定とホイールのセットアップまでできました。そしてついでにベンチマークも実行しました。何人かの役に立てば嬉しいです。
これは、モデルが収まる限り、すべてのNvidia Blackwellカードで動くはずです。5090、5080、5070tiなど。 (たとえば、2x 5070TIをスタックする場合のように)
とにかく、以下が扱うもののリポジトリです:
https://github.com/elsung/blackwell-llm-toolkit
ハマりどころと解決策
TRT-LLMの起動フラグ
- TensorRT-LLMで、より新しいMambaハイブリッドモデルを動かすために、いくつかのあまり知られていない設定を有効にする必要がありました。リポジトリ内のYAMLファイル: `configs/trtllm/nemotron-omni-v3-sm120.yaml`。
LMCache
- VRAM上のモデル用の空き容量を確保するために、コンテキストをSSDへオフロードします。PyPIのホイールはBlackwellでクラッシュしました(sm_120のcubinsが見つからない)。そのため、ソースから作り直しました。私のOptaneドライブではとても快適に動きます。事前ビルド済みのホイールとビルドスクリプトの両方がリポジトリにあります。
リサーチ用ドキュメント
- 最新のモデルファミリー(Nemotron Omni V3、Qwen 3.5/3.6、Gemma 4)について、実際に何が違うのかをAIが深掘りした記事。参考になります。特にQwen 3.5/3.6のものが、ひどい罠から私を救ってくれました—名前だけ見るとQwen3-VLのリネームのように見えますが、内部のアーキテクチャは完全に別物です。
ベンチマークのハイライト
シングル RTX Pro 6000 96GB、テンソル並列なし。速度は持続デコード tok/s(3回の実行の中央値、500トークンの完了)です。
Nemotron-3-Nano-Omni V3(マルチモーダル — 画像/動画/音声 + テキスト)
- NVFP4量子化、8kコンテキストでテスト → **270 tok/s**
- 最速 + すべてのモダリティを扱えます。TRT-LLM v1.3.0rc13が必要です。
- https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4
Nemotron-3-Nano(テキストのみ)
- NVFP4量子化、8kコンテキストでテスト → **249 tok/s**
- ツール呼び出しエージェントに最適(ツールで10/10)。
- https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4
DeepSeek-V4-Flash
- IQ2_XXS-XL GGUF、65kコンテキストでテスト → **31 tok/s**
- 複雑な推論に最適(9/10 Intel + 10/10ツール + 13/13キャリブレーション)。
- https://huggingface.co/teamblobfish/DeepSeek-V4-Flash-GGUF (IQ2_XXS-XL)
MiniMax-M2.7-REAP-172B
- Q3_K_S GGUF、196kコンテキストでテスト → **117 tok/s**
- 長い会話。
- https://huggingface.co/exdysa/MiniMax-M2.7-REAP-172B-A10B-GGUF (Q3_K_S)
MiniMax-M2.7 W4A16(LMCache → Optane SSDあり)
- W4A16 AutoRound、154kコンテキストでテスト → **20-22 tok/s**
- W4A16品質の回答でロングコンテキスト。KVキャッシュをSSDへオフロード。
- https://huggingface.co/MJPansa/MiniMax-M2.7-REAP-172B-A10B-AutoRound-W4A16
MiniMax-M2.7 W4A16(短いコンテキスト、LMCacheなし)
- 上と同じモデル、64kコンテキストでテスト → **22-25 tok/s**
- 最も高品質な短文回答(10/10 Intel)。
TTFT、プリフィル速度、同時実行数、そしてすべての品質評価スコアを含む完全な表 → リポジトリの bench/results.md: https://github.com/elsung/blackwell-llm-toolkit/blob/main/bench/results.md
検証に使用したベンチツール
- `rapid_bench.py` — 41プロンプトの品質評価(10 intelligence + 10 tool-use + 13 calibration + 3 orchestration + 5 creative writing)
- `bench_harness.py` — 持続デコード + TTFT + プリフィル + 同時実行、さらに `--prompt-tokens N` モード(154kロングコンテキストのmjpansa実行用)
Apache 2.0、PR歓迎です—特に他のBlackwell GPUの方々(RTX 5090/5080/5070TI)からのベンチマーク貢献があると、比較が異なるハードウェアにわたって充実します。
[link] [comments]




