2基のRTX PRO 6000 Blackwell上のMiniMax-M2.7 NVFP4 — ベンチマーク数値

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

デュアル構成のRTX PRO 6000 BlackwellセットアップでMiniMax-M2.7 NVFP4を実行すると、C=1で127.7 tok/sを達成し、C=128ではピーク時の合計で約2,800 tok/sまでスケールする。並列度（同時実行数）が上がるにつれて、1リクエストあたりのスループットは低下する。
プリフィルのスループットはコンテキスト長にわたって測定されており、8Kで約17.3k tok/sから128Kで約9.9k tok/sまで低下している。これはシーケンス長が伸びるにつれて処理が遅くなることを示している。
ベンチマークは、コンテナ上でSGLangを使用し、modelopt_fp4とbf16のKV（TP=2）で構成している。推論スタックの重要な構成要素として、TP=2と量子化された重みが挙げられる。
M2.7 NEXTNのdrafterがまだ利用できないため、推測（スペキュレイティブ）デコードは含まれていない。著者は、この機能が提供されれば、低並列時における改善がより大きくなると見込んでいる。
実運用上の制約として、長いコンテキスト「セル」は高い並列度では効率が悪化する点が強調されている。理由はKVプールが約83Kトークンであるためで、16KはおおよそC=8までうまく機能し、その後はキュー競合によって性能が伸びにくくなる。

MiniMax-M2.7 NVFP4 on 2x RTX PRO 6000 Blackwell — bench numbers

https://preview.redd.it/zxd2awig4vug1.png?width=656&format=png&auto=webp&s=f72dc0fd05ad1380c56166e3af3de48a57fbbd75

2x RTX PRO 6000 Blackwell 上の MiniMax-M2.7 NVFP4 — 127.7 tok/s（C=1）、2800ピーク（C=128）

Luke Alonso の M2.7 NVFP4 量子化モデルで、セットアップ全体をスイープしました。同じ構成を買う人のために書き留めます。

**ハードウェア:** AsRock Rack B650D4U-2L2T、EPYC 4564P、128GB DDR5 ECC、2x RTX PRO 6000 Blackwell（96GB、600W）。C-Payne の C-Payne PM50100 PLX Gen5 スイッチの背後に接続（PIX トポロジ）。

**ソフトウェア:** voipmonitor/sglang:cu130 docker（b12x 0.8.3）経由の SGLang、modelopt_fp4、bf16 KV、TP=2、Luke のデフォルトレシピ。

**デコードスループット（ctx=0、3x 平均、30s/cell）：**

| C | agg tok/s | per-req tok/s |

|---|-----------|---------------|

| 1 | 127.7 | 127.7 |

| 8 | 471.6 | 59.0 |

| 32 | 1078.9 | 33.7 |

| 64 | 1695.4 | 26.5 |

| 128 | 2800.2 | 21.9 |

**プリフィル（C=1）：**

| ctx | TTFT | tok/s |

|-----|------|-------|

| 8K | 0.50s | 17,286 |

| 16K | 0.99s | 16,926 |

| 32K | 2.09s | 15,861 |

| 64K | 4.94s | 13,319 |

| 128K | 13.25s | 9,908 |

**推測デコードなし** — M2.7 にはまだ NEXTN drafter がありません。出荷されれば、低い並列度で意味のある向上が期待できるはずです。

長いコンテキストのセルは高い並列度ではスキップします（KV プールは bf16-KV、TP=2 で約 83K トークン）。16K なら、キュー競合が起きるまで per-req あたり C=8 程度までは問題ありません；128K は C=1 のみの領域です。

完全な手法と注意事項:

https://github.com/Visual-Synthesizer/rtx6kpro/blob/master/benchmarks/inference-throughput/b650d4u-2gpu.md

カーネルと量子化を提供してくれた Luke に感謝し、M2.7 NVFP4 重みの最近のキャリブレーションデータ更新をしてくれた Jon に感謝します。

submitted by /u/Visual_Synthesizer
[リンク] [コメント]

Black Hat USA

AI Business

Black Hat Asia

AI Business

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

note

現状AIはどれくらいの速度で進化しているのか

note

【SUNO曲】AI彼氏の歌

note

2基のRTX PRO 6000 Blackwell上のMiniMax-M2.7 NVFP4 — ベンチマーク数値

要点

関連記事

Black Hat USA

Black Hat Asia

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

現状AIはどれくらいの速度で進化しているのか

【SUNO曲】AI彼氏の歌

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer