vLLMを使って、12ノード・96台のB200 GPUでQwen 3.5 27B(MoEではない高密度な方)を1,103,941 tok/sまでプッシュしました。
ノードあたり9,500〜95Kは、4つの変更に由来します。TP=8の上にDP=8、コンテキストウィンドウを131Kから4Kへ、FP8のKVキャッシュ、そしてMTP-1によるスペキュラティブ・デコーディングです。最後のものが最大でした。MTPがない場合、GPU利用率は0%でした。
スケーリング:8ノードで97.1%の効率、12ノードで96.5%。ClusterIPのラウンドロビン方式。KV-cacheを考慮したルーティングを備えたInference Gatewayでは35%のオーバーヘッドが追加されたため、使いませんでした。
カスタムカーネルなし。vLLM v0.18.0をそのまま(デフォルトで)使用。GDNカーネルの最適化はまだ上流に反映されている最中です。
開示:私はGoogle Cloudで働いています。
[link] [コメント]