| moonshotai/Kimi-K2.6 int4 @ 9.7 トークン/s(出力 136 トークン)および 263 トークン/s(入力 14564 トークン)で vllm-gfx906-mobydick vllm フォークの GitHub リンク: https://github.com/ai-infos/vllm-gfx906-mobydick 消費電力: 約640W(アイドル)/ 約4800W(ピーク 推論) 価値はある? いいえ。ソーラーパネルか無料エネルギーがない限り… セットアップの詳細: https://github.com/ai-infos/guidances-setup-16-mi50-deepseek-v32 実行したコマンド: スクリプト「openai_server_kimi.py」は、torchrun を使った公式 vllm の例をベースにしています(openai API をサポートするように改変…ただし、あまり最適化はされていません)。torchrun を含んだ vllm のデフォルトコマンドは私の環境ではうまく動かなかったので、デバッグのためにもう少し調査が必要でした…。興味があれば、GitHub でも共有できます(ただし、もっと最適化する必要があります)。 追記(ps): この構成について、完全なガイダンス(guidance)のセットアップはまだやっていません。というのも、性能にあまり満足していないからです…。 まず、このセットアップは pcie gen3 x8 と pcie gen4 x4 で動かしています。どちらも理論上は 7GB/s になるはずですが、1 台が 3.5GB/s になってしまいました(ライザーの不安定さによるものです…)。 理論上は、TP8 PP4(または TP4 PP8)で、最大の pcie 帯域:28GB/s(x16 の場合)または 14GB/s(x8 の場合)を確保し、最適化した vllm ソフトウェアスタックで新しいセットアップができれば、mtp なしで 600〜1000 PP と 9〜12 TG まで到達できるのではないかと思います。そして、このセットアップはハイブリッド構成(ddr5-rtx 6000 pro など)と比較するなら面白いかもしれません。 ただ、私はもう一通りやり切ったので、これ以上はやめて、小さなモデルを楽しむことにします。小規模なセットアップの方が、はるかに速いです。 質問やコメントがあれば、気軽にどうぞ。 [リンク] [コメント] |
Final Monster:AMD MI50(32GB)×32で9.7 t/s(TG)と264 t/s(PP)、Kimi K2.6を使用
Reddit r/LocalLLaMA / 2026/5/1
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この投稿は、ローカル推論用にAMD MI50(32GB)を32枚使用し、Kimi K2.6をint4で動かした構成について述べており、約9.7 tok/s(TG)および263 tok/s(PP)を報告しています。
- ベンチマークはvLLMのフォーク(“vllm-gfx906-mobydick”)上で実行したとされ、フォークへのGitHubリンクも示されています。
- 著者は消費電力としてアイドル時~640W、ピーク推論時~4800Wを報告し、太陽光や無料の電力がない限り「費用対効果は高くない」と述べています。
- 構成は16GPU×2ノードで、10G Ethernetで接続しており、OpenAI互換サーバを起動するための環境変数とtorchrunの分散実行コマンドが掲載されています。
- 著者は、パフォーマンスに不満があるとして“guidance setup”を完全には行っておらず、(PCIeで動かしている等により)性能が制約されている可能性を示唆しています。




