[D] - B200 GPUでQwen 3.5 27BをvLLM上で1M tokens/秒提供:ベンチマーク結果と知見

Reddit r/MachineLearning / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • この記事は、Qwen 3.5 27B(dense、FP8)をvLLM v0.18.0で、GKE上でNVIDIA B200を96台用いて展開・ベンチマークし、合計1.1M tokens/secを達成したことを報告している。
  • データ並列(DP=8)はテンソル並列(TP=8)と比べてスループットをほぼ4倍に向上させることが分かり、B200上ではモデルが小さすぎるためTPにはメリットがないと結論づけている。
  • 結果は、マルチノードでのスケーリング効率が高いことを示しており(8ノードで97.1%、12ノードで96.5%)、ノード数が増えてもTPOTは概ね一定(約46ms)だった。
  • 著者は、GPU利用率を高めるうえでMTP-1を有効化することが重要だったと強調しており、MTP-1を有効にしないとGPU利用率は0%だった。一方でMTP-5はcudaErrorIllegalAddressによるクラッシュを引き起こした。
  • GoogleのInference GatewayによるKVキャッシュを意識したルーティングは、round-robinのClusterIPに比べて約35%のオーバーヘッドを追加すること、またテストした最悪ケースのワークロード(プレフィックスキャッシュヒットなし)では、単一のEPPポッドがスループットのボトルネックになることを述べている。

vLLM v0.18.0で96台のB200 GPUにQwen 3.5 27B(高密度、FP8)をプッシュして、合計1.1Mトークン/秒まで到達させるまでのプロセスをまとめました。

  • DP=8はTP=8に比べて約4倍のスループット向上です。モデルが小さすぎるため、B200ではテンソルパラレリズムの効果がありません。
  • MTP-1は他の何よりも重要でした(それなしではGPU利用率が0%でした)。MTP-5はcudaErrorIllegalAddressでクラッシュしました。
  • 8ノードで97.1%のスケーリング効率、12ノードで96.5%。TPOTはノード数にかかわらず約46msでフラットです。
  • 推論ゲートウェイ(KVキャッシュを意識したルーティング)を追加すると、ClusterIPのラウンドロビンに比べて約35%のオーバーヘッドが増えます。単一のEPPポッドがボトルネックです。

InferenceMAXの手法、入力長=1024、出力長=512、プレフィックスキャッシュヒット率0%。最悪ケースの数値です。

https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-with-b200-gpus-161da5c1b592

開示:私はGoogle Cloudで働いています。

提出者 /u/m4r1k_
[リンク] [コメント]