Blackwell LLM Toolkit:NVFP4設定+ホイール+ベンチマーク(TensorRT-LLMでBlackwell GPUを動かす)— Nemotron 3 Omniで270 tk/s

Reddit r/LocalLLaMA / 2026/5/12

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事では、NVIDIA Blackwell GPU(例:RTX Pro 6000、5090/5080/5070 Ti)向けに、NVFP4の設定、TensorRT-LLMセットアップ、ホイール、ベンチマーク用スクリプトをまとめた「Blackwell LLM Toolkit」を紹介しており、モデルがメモリに収まる限り利用できるとしています。
  • TensorRT-LLM側の主要なハマりどころとして、新しいMambaハイブリッドモデルを動かすために“見落としがちな”起動フラグを有効化する必要があることを、特定のYAML設定ファイルで説明しています。
  • メモリ制約への対処として、SSDオフロードを行うLMCacheの使い方を解説し、Blackwellで発生するsm_120 cubins欠落によるクラッシュを直すためにLMCacheのPyPIホイールをソースから再ビルドしたと述べています。
  • 研究ドキュメントとして、Nemotron Omni V3、Qwen 3.5/3.6、Gemma 4など最新モデル群の“実際にどこが違うのか”を整理した説明を共有し、名前が似ているが内部アーキテクチャが別物である(例:Qwen 3.5/3.6を別系統と誤認する)ような罠を避ける助けになるとしています。
  • ベンチマークでは、単一のRTX Pro 6000 96GB(テンソル並列なし)で、8kコンテキスト時にNemotron 3 Nano Omni V3(NVFP4)が約270 tok/s、テキスト専用のNemotron 3 Nano(NVFP4)が約249 tok/sなどの持続デコード速度を報告しています。

RTX Pro 6000を活用するためにNVFP4で良いモデル一式を用意しようとしていて、いくつかのハードルを乗り越え、設定とホイールのセットアップまでできました。そしてついでにベンチマークも実行しました。何人かの役に立てば嬉しいです。

これは、モデルが収まる限り、すべてのNvidia Blackwellカードで動くはずです。5090、5080、5070tiなど。 (たとえば、2x 5070TIをスタックする場合のように)

とにかく、以下が扱うもののリポジトリです:

https://github.com/elsung/blackwell-llm-toolkit

ハマりどころと解決策

  • TRT-LLMの起動フラグ

    • TensorRT-LLMで、より新しいMambaハイブリッドモデルを動かすために、いくつかのあまり知られていない設定を有効にする必要がありました。リポジトリ内のYAMLファイル: `configs/trtllm/nemotron-omni-v3-sm120.yaml`。
  • LMCache

    • VRAM上のモデル用の空き容量を確保するために、コンテキストをSSDへオフロードします。PyPIのホイールはBlackwellでクラッシュしました(sm_120のcubinsが見つからない)。そのため、ソースから作り直しました。私のOptaneドライブではとても快適に動きます。事前ビルド済みのホイールとビルドスクリプトの両方がリポジトリにあります。
  • リサーチ用ドキュメント

    • 最新のモデルファミリー(Nemotron Omni V3、Qwen 3.5/3.6、Gemma 4)について、実際に何が違うのかをAIが深掘りした記事。参考になります。特にQwen 3.5/3.6のものが、ひどい罠から私を救ってくれました—名前だけ見るとQwen3-VLのリネームのように見えますが、内部のアーキテクチャは完全に別物です。

ベンチマークのハイライト

シングル RTX Pro 6000 96GB、テンソル並列なし。速度は持続デコード tok/s(3回の実行の中央値、500トークンの完了)です。

Nemotron-3-Nano-Omni V3(マルチモーダル — 画像/動画/音声 + テキスト)

Nemotron-3-Nano(テキストのみ)

DeepSeek-V4-Flash

MiniMax-M2.7-REAP-172B

MiniMax-M2.7 W4A16(LMCache → Optane SSDあり)

MiniMax-M2.7 W4A16(短いコンテキスト、LMCacheなし)

  • 上と同じモデル、64kコンテキストでテスト → **22-25 tok/s**
  • 最も高品質な短文回答(10/10 Intel)。

TTFT、プリフィル速度、同時実行数、そしてすべての品質評価スコアを含む完全な表 → リポジトリの bench/results.md: https://github.com/elsung/blackwell-llm-toolkit/blob/main/bench/results.md

検証に使用したベンチツール

  • `rapid_bench.py` — 41プロンプトの品質評価(10 intelligence + 10 tool-use + 13 calibration + 3 orchestration + 5 creative writing)
  • `bench_harness.py` — 持続デコード + TTFT + プリフィル + 同時実行、さらに `--prompt-tokens N` モード(154kロングコンテキストのmjpansa実行用)

Apache 2.0、PR歓迎です—特に他のBlackwell GPUの方々(RTX 5090/5080/5070TI)からのベンチマーク貢献があると、比較が異なるハードウェアにわたって充実します。

submitted by /u/elsung
[link] [comments]