[D] - B200 GPUでQwen 3.5 27BをvLLM上で1M tokens/秒提供：ベンチマーク結果と知見

Reddit r/MachineLearning / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

この記事は、Qwen 3.5 27B（dense、FP8）をvLLM v0.18.0で、GKE上でNVIDIA B200を96台用いて展開・ベンチマークし、合計1.1M tokens/secを達成したことを報告している。
データ並列（DP=8）はテンソル並列（TP=8）と比べてスループットをほぼ4倍に向上させることが分かり、B200上ではモデルが小さすぎるためTPにはメリットがないと結論づけている。
結果は、マルチノードでのスケーリング効率が高いことを示しており（8ノードで97.1%、12ノードで96.5%）、ノード数が増えてもTPOTは概ね一定（約46ms）だった。
著者は、GPU利用率を高めるうえでMTP-1を有効化することが重要だったと強調しており、MTP-1を有効にしないとGPU利用率は0%だった。一方でMTP-5はcudaErrorIllegalAddressによるクラッシュを引き起こした。
GoogleのInference GatewayによるKVキャッシュを意識したルーティングは、round-robinのClusterIPに比べて約35%のオーバーヘッドを追加すること、またテストした最悪ケースのワークロード（プレフィックスキャッシュヒットなし）では、単一のEPPポッドがスループットのボトルネックになることを述べている。

vLLM v0.18.0で96台のB200 GPUにQwen 3.5 27B（高密度、FP8）をプッシュして、合計1.1Mトークン/秒まで到達させるまでのプロセスをまとめました。

DP=8はTP=8に比べて約4倍のスループット向上です。モデルが小さすぎるため、B200ではテンソルパラレリズムの効果がありません。
MTP-1は他の何よりも重要でした（それなしではGPU利用率が0%でした）。MTP-5はcudaErrorIllegalAddressでクラッシュしました。
8ノードで97.1%のスケーリング効率、12ノードで96.5%。TPOTはノード数にかかわらず約46msでフラットです。
推論ゲートウェイ（KVキャッシュを意識したルーティング）を追加すると、ClusterIPのラウンドロビンに比べて約35%のオーバーヘッドが増えます。単一のEPPポッドがボトルネックです。

InferenceMAXの手法、入力長=1024、出力長=512、プレフィックスキャッシュヒット率0%。最悪ケースの数値です。

開示：私はGoogle Cloudで働いています。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

Dev.to