vLLM v0.18.0で96台のB200 GPUにQwen 3.5 27B(高密度、FP8)をプッシュして、合計1.1Mトークン/秒まで到達させるまでのプロセスをまとめました。
- DP=8はTP=8に比べて約4倍のスループット向上です。モデルが小さすぎるため、B200ではテンソルパラレリズムの効果がありません。
- MTP-1は他の何よりも重要でした(それなしではGPU利用率が0%でした)。MTP-5はcudaErrorIllegalAddressでクラッシュしました。
- 8ノードで97.1%のスケーリング効率、12ノードで96.5%。TPOTはノード数にかかわらず約46msでフラットです。
- 推論ゲートウェイ(KVキャッシュを意識したルーティング)を追加すると、ClusterIPのラウンドロビンに比べて約35%のオーバーヘッドが増えます。単一のEPPポッドがボトルネックです。
InferenceMAXの手法、入力長=1024、出力長=512、プレフィックスキャッシュヒット率0%。最悪ケースの数値です。
開示:私はGoogle Cloudで働いています。
[リンク] [コメント]