Final Monster:AMD MI50(32GB)×32で9.7 t/s(TG)と264 t/s(PP)、Kimi K2.6を使用

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この投稿は、ローカル推論用にAMD MI50(32GB)を32枚使用し、Kimi K2.6をint4で動かした構成について述べており、約9.7 tok/s(TG)および263 tok/s(PP)を報告しています。
  • ベンチマークはvLLMのフォーク(“vllm-gfx906-mobydick”)上で実行したとされ、フォークへのGitHubリンクも示されています。
  • 著者は消費電力としてアイドル時~640W、ピーク推論時~4800Wを報告し、太陽光や無料の電力がない限り「費用対効果は高くない」と述べています。
  • 構成は16GPU×2ノードで、10G Ethernetで接続しており、OpenAI互換サーバを起動するための環境変数とtorchrunの分散実行コマンドが掲載されています。
  • 著者は、パフォーマンスに不満があるとして“guidance setup”を完全には行っておらず、(PCIeで動かしている等により)性能が制約されている可能性を示唆しています。
Final Monster: 32x AMD MI50 32GB at 9.7 t/s (TG) & 264 t/s (PP) with Kimi K2.6

32 MI50 32GB の構成

moonshotai/Kimi-K2.6 int4 @ 9.7 トークン/s(出力 136 トークン)および 263 トークン/s(入力 14564 トークン)で vllm-gfx906-mobydick

vllm フォークの GitHub リンク: https://github.com/ai-infos/vllm-gfx906-mobydick

消費電力: 約640W(アイドル)/ 約4800W(ピーク 推論)

価値はある? いいえ。ソーラーパネルか無料エネルギーがない限り…

セットアップの詳細:
これは、16 GPU のノードを 2 台つないだだけです。10G ケーブルのイーサネットで接続しました。16 GPU の 1 ノード分の詳細は、こちらにあります:

https://github.com/ai-infos/guidances-setup-16-mi50-deepseek-v32

実行したコマンド:

NCCL_SOCKET_IFNAME=eno1 GLOO_SOCKET_IFNAME=eno1 PYTHONUNBUFFERED=1 VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS=1200 OMP_NUM_THREADS=4 
 FLASH_ATTENTION_TRITON_AMD_REF="TRUE" FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG 
 python3 -m torch.distributed.run --nnodes=2 --node_rank=0 --nproc_per_node=16 --master_addr=10.0.0.8 --master_port=29500 /llm/models/shared/openai_server_kimi.py 2>&1 | tee log.txt NCCL_SOCKET_IFNAME=eno1 GLOO_SOCKET_IFNAME=eno1 PYTHONUNBUFFERED=1 VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS=1200 OMP_NUM_THREADS=4 
 FLASH_ATTENTION_TRITON_AMD_REF="TRUE" FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG 
 python3 -m torch.distributed.run --nnodes=2 --node_rank=1 --nproc_per_node=16 --master_addr=10.0.0.8 --master_port=29500 /llm/models/shared/openai_server_kimi.py 2>&1 | tee log.txt 

スクリプト「openai_server_kimi.py」は、torchrun を使った公式 vllm の例をベースにしています(openai API をサポートするように改変…ただし、あまり最適化はされていません)。torchrun を含んだ vllm のデフォルトコマンドは私の環境ではうまく動かなかったので、デバッグのためにもう少し調査が必要でした…。興味があれば、GitHub でも共有できます(ただし、もっと最適化する必要があります)。

追記(ps): この構成について、完全なガイダンス(guidance)のセットアップはまだやっていません。というのも、性能にあまり満足していないからです…。 まず、このセットアップは pcie gen3 x8 と pcie gen4 x4 で動かしています。どちらも理論上は 7GB/s になるはずですが、1 台が 3.5GB/s になってしまいました(ライザーの不安定さによるものです…)。 理論上は、TP8 PP4(または TP4 PP8)で、最大の pcie 帯域:28GB/s(x16 の場合)または 14GB/s(x8 の場合)を確保し、最適化した vllm ソフトウェアスタックで新しいセットアップができれば、mtp なしで 600〜1000 PP と 9〜12 TG まで到達できるのではないかと思います。そして、このセットアップはハイブリッド構成(ddr5-rtx 6000 pro など)と比較するなら面白いかもしれません。 ただ、私はもう一通りやり切ったので、これ以上はやめて、小さなモデルを楽しむことにします。小規模なセットアップの方が、はるかに速いです。

質問やコメントがあれば、気軽にどうぞ。

提出者: /u/ai-infos
[リンク] [コメント]