| Qwen3.5 397B A17B GPTQ 4-bit @ 32 トークン/秒(出力) および 2000 トークン/秒(入力:20k トークン) の vllm-gfx906-mobydick vllm フォークの GitHub リンク: https://github.com/ai-infos/vllm-gfx906-mobydick 消費電力: 550W(アイドル)/ 2400W(ピーク推論) 目標: 速度(トークン生成 & プロンプト処理)もそこそこ確保しつつ、16*MI50 のような最も費用対効果の高いハードウェアで、Qwen3.5 397B A17B GPTQ 4-bit を動かすこと 次に来るもの: Kimi K2.5 Thinking および/または GLM-5 用に、32 台の AMD MI50 32GB の将来のテストセットアップをオープンソース化 クレジット: グローバルなオープンソースコミュニティに大きな感謝を! セットアップの詳細はこちら: https://github.com/ai-infos/guidances-setup-16-mi50-qwen35-397b 質問があればお気軽にどうぞ。また、コメントもぜひ共有してください。 ps: RAM/VRAM の価格が上がっていくにつれて、CPU/GPU を混在させるのは良い代替案になるかもしれません。トークン生成/プロンプト処理の速度は、16 TB/s の帯域幅 + テンソル並列 + MTP(マルチトークン予測)によって大幅に向上するでしょう! ps2: 数か月前に、deepseek v3.2 向けに似た投稿をしました。vllm-gfx906-mobydick の当初の目的は、実は deepseek のような大規模モデルを動かすことでしたが、それ以前は FP16 のアクティベーションを使うとフォークが十分に安定していませんでした。現在は、FP32 アクティベーションを使うことで(パフォーマンスのために一部の FP16 attention 計算あり)、deepseek v3.2 と qwen3.5 397B の両方で大きなコンテキストでもフォークがかなり安定しています。 ps3: vllm-gfx906-mobydick フォークを使えば、より小さな最近のモデルも動かせます(基盤が vllm v0.17.1 なので)。たとえば Qwen3.5 27B(MTP5 と TP4 で 56 tok/s に到達。ただし 1 MI50 32GB でも 65k コンテキストに収まります。もし興味があれば、より小さなセットアップでのベンチマークを示す別の投稿も後で作ることができます) ps4: 以前のコンシューマ向け GPU で BF16 に対応していないものに対して、BF16 全体の代わりに(FP16 attention 計算を混ぜた形で)FP32 アクティベーションを使う、という発想は、もちろん AMD MI50 以外の他の GPU にも拡張できます。なので、この vllm-gfx906-mobydick フォークは、(多少の調整の有無にかかわらず)他の古い GPU にも再利用できると思います。 ps5: 上の画像(rocm-smi)は、vllm がアイドルのときの温度/消費電力を示しています(生成の後;ピークは GPU あたり約 71°C / 120W です) [リンク] [コメント] |
Qwen3.5 397B(vllm-gfx906-mobydick)で16× AMD Radeon MI50 32GBを用い、32 t/s(tg)および2k t/s(pp)を達成
Reddit r/LocalLLaMA / 2026/4/1
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- この記事は、vllm-gfx906-mobydick のVLLMフォーク上で Qwen3.5 397B(A17B GPTQ 4-bit)を動かす、大規模なローカル推論セットアップを報告している。
- 出力(TG)で約32トークン/秒、入力(PP)では20kトークンのコンテキストに対して約2,000トークン/秒のスループットを主張している。
- この構成は、コスト効率の高い導入を狙っており、アイドル時の消費電力が約550W、推論時のピークが約2,400Wである点を挙げるとともに、高帯域幅とテンソル並列化、そしてマルチトークン予測の利点を強調している。
- 著者は、vllm-gfx906-mobydick フォークが DeepSeek v3.2 と Qwen3.5 397B を FP32 アクティベーションで動かす際の安定性を改善したと述べている(性能のために一部のFP16注意計算は使用)。これにより「ビッグコンテキスト」実行が可能になるとしている。
- フォークのGitHubリンクと、ビルド/ベンチマークに関する詳細な手順を提示しており、将来的には他のモデル(Kimi K2.5 Thinking や GLM-5 など)に対して 32× MI50 32GB へスケールすることを示唆している。




