B200でQwen 3.5 27Bを1.1M tok/sで:全構成をGitHubで公開

Reddit r/LocalLLaMA / 2026/3/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Qwen 3.5 27B(dense variant)は、vLLMを使用した12ノード・クラスターで、96台のNVIDIA B200 GPUにより1,103,941トークン/秒に到達したと報告されている。
  • 性能向上は、主に4つの構成/実装上の変更によるものとして挙げられている:TP=8ではなくDP=8とすること、コンテキストウィンドウを131Kから4Kに減らすこと、FP8のKVキャッシュを使用すること、そしてMTP-1の推測デコード(speculative decoding)を有効化すること。
  • MTP-1が最大のレバーだと強調されており、これがない場合はGPU利用率が0%にまで落ちる一方、これがある場合は非常に高い利用率を維持できると報告されている。
  • スケーリング結果では、ClusterIPのラウンドロビンにより8ノードで約97.1%効率、12ノードで約96.5%が示されている。KVキャッシュを考慮したルーティング機能は約35%のオーバーヘッドがあるため、回避された。
  • チームは、カスタムカーネルを一切使わずに、vLLM v0.18.0をそのまま(out of the box)使用したと言っている。さらに追加の「GDN」カーネル最適化をアップストリームで計画しており、全ての構成をGitHubで公開している。

vLLMを使って、12ノード・96台のB200 GPUでQwen 3.5 27B(MoEではない高密度な方)を1,103,941 tok/sまでプッシュしました。

ノードあたり9,500〜95Kは、4つの変更に由来します。TP=8の上にDP=8、コンテキストウィンドウを131Kから4Kへ、FP8のKVキャッシュ、そしてMTP-1によるスペキュラティブ・デコーディングです。最後のものが最大でした。MTPがない場合、GPU利用率は0%でした。

スケーリング:8ノードで97.1%の効率、12ノードで96.5%。ClusterIPのラウンドロビン方式。KV-cacheを考慮したルーティングを備えたInference Gatewayでは35%のオーバーヘッドが追加されたため、使いませんでした。

カスタムカーネルなし。vLLM v0.18.0をそのまま(デフォルトで)使用。GDNカーネルの最適化はまだ上流に反映されている最中です。

https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-with-b200-gpus-161da5c1b592

開示:私はGoogle Cloudで働いています。

submitted by /u/m4r1k_
[link] [コメント]