広告

Qwen3.5 397B(vllm-gfx906-mobydick)で16× AMD Radeon MI50 32GBを用い、32 t/s(tg)および2k t/s(pp)を達成

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • この記事は、vllm-gfx906-mobydick のVLLMフォーク上で Qwen3.5 397B(A17B GPTQ 4-bit)を動かす、大規模なローカル推論セットアップを報告している。
  • 出力(TG)で約32トークン/秒、入力(PP)では20kトークンのコンテキストに対して約2,000トークン/秒のスループットを主張している。
  • この構成は、コスト効率の高い導入を狙っており、アイドル時の消費電力が約550W、推論時のピークが約2,400Wである点を挙げるとともに、高帯域幅とテンソル並列化、そしてマルチトークン予測の利点を強調している。
  • 著者は、vllm-gfx906-mobydick フォークが DeepSeek v3.2 と Qwen3.5 397B を FP32 アクティベーションで動かす際の安定性を改善したと述べている(性能のために一部のFP16注意計算は使用)。これにより「ビッグコンテキスト」実行が可能になるとしている。
  • フォークのGitHubリンクと、ビルド/ベンチマークに関する詳細な手順を提示しており、将来的には他のモデル(Kimi K2.5 Thinking や GLM-5 など)に対して 32× MI50 32GB へスケールすることを示唆している。
16x AMD MI50 32GB at 32 t/s (tg) & 2k t/s (pp) with Qwen3.5 397B (vllm-gfx906-mobydick)

Qwen3.5 397B A17B GPTQ 4-bit @ 32 トークン/秒(出力) および 2000 トークン/秒(入力:20k トークン)vllm-gfx906-mobydick

16 mi50 32gb 設定

vllm フォークの GitHub リンク: https://github.com/ai-infos/vllm-gfx906-mobydick

消費電力: 550W(アイドル)/ 2400W(ピーク推論)

目標: 速度(トークン生成 & プロンプト処理)もそこそこ確保しつつ、16*MI50 のような最も費用対効果の高いハードウェアで、Qwen3.5 397B A17B GPTQ 4-bit を動かすこと

次に来るもの: Kimi K2.5 Thinking および/または GLM-5 用に、32 台の AMD MI50 32GB の将来のテストセットアップをオープンソース化

クレジット: グローバルなオープンソースコミュニティに大きな感謝を!

セットアップの詳細はこちら:

https://github.com/ai-infos/guidances-setup-16-mi50-qwen35-397b

質問があればお気軽にどうぞ。また、コメントもぜひ共有してください。

ps: RAM/VRAM の価格が上がっていくにつれて、CPU/GPU を混在させるのは良い代替案になるかもしれません。トークン生成/プロンプト処理の速度は、16 TB/s の帯域幅 + テンソル並列 + MTP(マルチトークン予測)によって大幅に向上するでしょう!

ps2: 数か月前に、deepseek v3.2 向けに似た投稿をしました。vllm-gfx906-mobydick の当初の目的は、実は deepseek のような大規模モデルを動かすことでしたが、それ以前は FP16 のアクティベーションを使うとフォークが十分に安定していませんでした。現在は、FP32 アクティベーションを使うことで(パフォーマンスのために一部の FP16 attention 計算あり)、deepseek v3.2 と qwen3.5 397B の両方で大きなコンテキストでもフォークがかなり安定しています

ps3: vllm-gfx906-mobydick フォークを使えば、より小さな最近のモデルも動かせます(基盤が vllm v0.17.1 なので)。たとえば Qwen3.5 27B(MTP5 と TP4 で 56 tok/s に到達。ただし 1 MI50 32GB でも 65k コンテキストに収まります。もし興味があれば、より小さなセットアップでのベンチマークを示す別の投稿も後で作ることができます)

ps4: 以前のコンシューマ向け GPU で BF16 に対応していないものに対して、BF16 全体の代わりに(FP16 attention 計算を混ぜた形で)FP32 アクティベーションを使う、という発想は、もちろん AMD MI50 以外の他の GPU にも拡張できます。なので、この vllm-gfx906-mobydick フォークは、(多少の調整の有無にかかわらず)他の古い GPU にも再利用できると思います。

rocm-smi

ps5: 上の画像(rocm-smi)は、vllm がアイドルのときの温度/消費電力を示しています(生成の後;ピークは GPU あたり約 71°C / 120W です)

提出者: /u/ai-infos
[リンク] [コメント]

広告