Qwen3.5 397B（vllm-gfx906-mobydick）で16× AMD Radeon MI50 32GBを用い、32 t/s（tg）および2k t/s（pp）を達成

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

この記事は、vllm-gfx906-mobydick のVLLMフォーク上で Qwen3.5 397B（A17B GPTQ 4-bit）を動かす、大規模なローカル推論セットアップを報告している。
出力（TG）で約32トークン/秒、入力（PP）では20kトークンのコンテキストに対して約2,000トークン/秒のスループットを主張している。
この構成は、コスト効率の高い導入を狙っており、アイドル時の消費電力が約550W、推論時のピークが約2,400Wである点を挙げるとともに、高帯域幅とテンソル並列化、そしてマルチトークン予測の利点を強調している。
著者は、vllm-gfx906-mobydick フォークが DeepSeek v3.2 と Qwen3.5 397B を FP32 アクティベーションで動かす際の安定性を改善したと述べている（性能のために一部のFP16注意計算は使用）。これにより「ビッグコンテキスト」実行が可能になるとしている。
フォークのGitHubリンクと、ビルド/ベンチマークに関する詳細な手順を提示しており、将来的には他のモデル（Kimi K2.5 Thinking や GLM-5 など）に対して 32× MI50 32GB へスケールすることを示唆している。

16x AMD MI50 32GB at 32 t/s (tg) & 2k t/s (pp) with Qwen3.5 397B (vllm-gfx906-mobydick)

Qwen3.5 397B A17B GPTQ 4-bit @ 32 トークン/秒（出力） および 2000 トークン/秒（入力：20k トークン） の vllm-gfx906-mobydick

16 mi50 32gb 設定

vllm フォークの GitHub リンク: https://github.com/ai-infos/vllm-gfx906-mobydick

消費電力: 550W（アイドル）/ 2400W（ピーク推論）

目標: 速度（トークン生成 & プロンプト処理）もそこそこ確保しつつ、16*MI50 のような最も費用対効果の高いハードウェアで、Qwen3.5 397B A17B GPTQ 4-bit を動かすこと

次に来るもの: Kimi K2.5 Thinking および/または GLM-5 用に、32 台の AMD MI50 32GB の将来のテストセットアップをオープンソース化

クレジット: グローバルなオープンソースコミュニティに大きな感謝を！

セットアップの詳細はこちら:

https://github.com/ai-infos/guidances-setup-16-mi50-qwen35-397b

質問があればお気軽にどうぞ。また、コメントもぜひ共有してください。

ps: RAM/VRAM の価格が上がっていくにつれて、CPU/GPU を混在させるのは良い代替案になるかもしれません。トークン生成/プロンプト処理の速度は、16 TB/s の帯域幅 + テンソル並列 + MTP（マルチトークン予測）によって大幅に向上するでしょう！

ps2: 数か月前に、deepseek v3.2 向けに似た投稿をしました。vllm-gfx906-mobydick の当初の目的は、実は deepseek のような大規模モデルを動かすことでしたが、それ以前は FP16 のアクティベーションを使うとフォークが十分に安定していませんでした。現在は、FP32 アクティベーションを使うことで（パフォーマンスのために一部の FP16 attention 計算あり）、deepseek v3.2 と qwen3.5 397B の両方で大きなコンテキストでもフォークがかなり安定しています。

ps3: vllm-gfx906-mobydick フォークを使えば、より小さな最近のモデルも動かせます（基盤が vllm v0.17.1 なので）。たとえば Qwen3.5 27B（MTP5 と TP4 で 56 tok/s に到達。ただし 1 MI50 32GB でも 65k コンテキストに収まります。もし興味があれば、より小さなセットアップでのベンチマークを示す別の投稿も後で作ることができます）

ps4: 以前のコンシューマ向け GPU で BF16 に対応していないものに対して、BF16 全体の代わりに（FP16 attention 計算を混ぜた形で）FP32 アクティベーションを使う、という発想は、もちろん AMD MI50 以外の他の GPU にも拡張できます。なので、この vllm-gfx906-mobydick フォークは、（多少の調整の有無にかかわらず）他の古い GPU にも再利用できると思います。

rocm-smi

ps5: 上の画像（rocm-smi）は、vllm がアイドルのときの温度/消費電力を示しています（生成の後；ピークは GPU あたり約 71°C / 120W です）

提出者： /u/ai-infos
[リンク] [コメント]