Final Monster：AMD MI50（32GB）×32で9.7 t/s（TG）と264 t/s（PP）、Kimi K2.6を使用

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この投稿は、ローカル推論用にAMD MI50（32GB）を32枚使用し、Kimi K2.6をint4で動かした構成について述べており、約9.7 tok/s（TG）および263 tok/s（PP）を報告しています。
ベンチマークはvLLMのフォーク（“vllm-gfx906-mobydick”）上で実行したとされ、フォークへのGitHubリンクも示されています。
著者は消費電力としてアイドル時~640W、ピーク推論時~4800Wを報告し、太陽光や無料の電力がない限り「費用対効果は高くない」と述べています。
構成は16GPU×2ノードで、10G Ethernetで接続しており、OpenAI互換サーバを起動するための環境変数とtorchrunの分散実行コマンドが掲載されています。
著者は、パフォーマンスに不満があるとして“guidance setup”を完全には行っておらず、（PCIeで動かしている等により）性能が制約されている可能性を示唆しています。

Final Monster: 32x AMD MI50 32GB at 9.7 t/s (TG) & 264 t/s (PP) with Kimi K2.6

32 MI50 32GB の構成

moonshotai/Kimi-K2.6 int4 @ 9.7 トークン/s（出力 136 トークン）および 263 トークン/s（入力 14564 トークン）で vllm-gfx906-mobydick

vllm フォークの GitHub リンク: https://github.com/ai-infos/vllm-gfx906-mobydick

消費電力: 約640W（アイドル）/ 約4800W（ピーク推論）

価値はある？いいえ。ソーラーパネルか無料エネルギーがない限り…

セットアップの詳細:
これは、16 GPU のノードを 2 台つないだだけです。10G ケーブルのイーサネットで接続しました。16 GPU の 1 ノード分の詳細は、こちらにあります：

https://github.com/ai-infos/guidances-setup-16-mi50-deepseek-v32

実行したコマンド:

NCCL_SOCKET_IFNAME=eno1 GLOO_SOCKET_IFNAME=eno1 PYTHONUNBUFFERED=1 VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS=1200 OMP_NUM_THREADS=4 
 FLASH_ATTENTION_TRITON_AMD_REF="TRUE" FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG 
 python3 -m torch.distributed.run --nnodes=2 --node_rank=0 --nproc_per_node=16 --master_addr=10.0.0.8 --master_port=29500 /llm/models/shared/openai_server_kimi.py 2>&1 | tee log.txt NCCL_SOCKET_IFNAME=eno1 GLOO_SOCKET_IFNAME=eno1 PYTHONUNBUFFERED=1 VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS=1200 OMP_NUM_THREADS=4 
 FLASH_ATTENTION_TRITON_AMD_REF="TRUE" FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG 
 python3 -m torch.distributed.run --nnodes=2 --node_rank=1 --nproc_per_node=16 --master_addr=10.0.0.8 --master_port=29500 /llm/models/shared/openai_server_kimi.py 2>&1 | tee log.txt

スクリプト「openai_server_kimi.py」は、torchrun を使った公式 vllm の例をベースにしています（openai API をサポートするように改変…ただし、あまり最適化はされていません）。torchrun を含んだ vllm のデフォルトコマンドは私の環境ではうまく動かなかったので、デバッグのためにもう少し調査が必要でした…。興味があれば、GitHub でも共有できます（ただし、もっと最適化する必要があります）。

追記（ps）: この構成について、完全なガイダンス（guidance）のセットアップはまだやっていません。というのも、性能にあまり満足していないからです…。まず、このセットアップは pcie gen3 x8 と pcie gen4 x4 で動かしています。どちらも理論上は 7GB/s になるはずですが、1 台が 3.5GB/s になってしまいました（ライザーの不安定さによるものです…）。理論上は、TP8 PP4（または TP4 PP8）で、最大の pcie 帯域：28GB/s（x16 の場合）または 14GB/s（x8 の場合）を確保し、最適化した vllm ソフトウェアスタックで新しいセットアップができれば、mtp なしで 600〜1000 PP と 9〜12 TG まで到達できるのではないかと思います。そして、このセットアップはハイブリッド構成（ddr5-rtx 6000 pro など）と比較するなら面白いかもしれません。ただ、私はもう一通りやり切ったので、これ以上はやめて、小さなモデルを楽しむことにします。小規模なセットアップの方が、はるかに速いです。

質問やコメントがあれば、気軽にどうぞ。

提出者: /u/ai-infos
[リンク] [コメント]