MiniMax M2.7 AWQ-4bit(2基Spark)vs 2基RTX 6000 96GB:性能とエネルギー効率

Reddit r/LocalLLaMA / 2026/5/2

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • この投稿は、MiniMax M2.7 AWQ 4-bit を2基Sparkクラスタと2基RTX 6000 96GB環境で動かした場合の性能およびエネルギー効率を、公開されているベンチマーク結果とリンクされた検証データに基づいて比較しています。
  • RTX 6000構成の方が大幅に高価にもかかわらず、Sparkクラスタの遅れは思ったほど大きくないと報告されており、2x RTX 6000はプロンプト処理で約2.7倍、トークン生成で約4.88倍の高速化だったとされています。
  • 投稿者は2つの構成の価格差をおよそ2.9倍と見積もり、Sparkクラスタを速度の完全な代替ではなくコストパフォーマンス重視の選択肢として位置づけています。
  • 1Mトークンあたりで正規化した際の消費電力は両者で非常に近い(大差がない)とされ、スループットが異なるにもかかわらず電力面では似た挙動を示唆しています。
  • 電力単価$0.10/kWhを前提に、計測した電力値を使ってワークロードあたりのエネルギーコストを見積もるための手段も提示されており、実運用の採算性を重視しています。
MiniMax M2.7 AWQ-4bit on 2x Spark vs 2x RTX 6000 96GB - performance and energy efficiency

こんにちは、

このモデル/量子化(quant)は私の毎日の使用環境(デイリードライバー)で、セットアップを、3倍高価で4倍電力を食う(パワーをより消費する)構成と比較するための参照ベンチが欲しかったんです。

まず結果、次に手法、その後すべての結果へのリンクです

モデル: cyankiwi/MiniMax-M2.7-AWQ-4bit

結果 (c1)

https://preview.redd.it/dzp6qzfc0pyg1.png?width=858&format=png&auto=webp&s=368debb16760ecaaf8d5bd4013bfeaa5ef940a69

https://preview.redd.it/2gziemld0pyg1.png?width=859&format=png&auto=webp&s=84e2f3c389013854734fecf89a25d1dd095f4d62

(表をテキストとしてアップロードしようとしたのですが、期待どおりに動きませんでした)

率直に言って意外だったのですが、Sparkクラスタは思ったほど大差ありません。平均すると、2x RTX 6000はプロンプト処理で2.7倍速く、トークン生成では4.88倍速いです;価格差はおよそ2.9倍。

消費電力もかなり近い(1Mトークンあたりで報告)です。$0.10/kWhだと、こうなります:

(追加したリンク先で電気料金を変更できます)

結果 (c2)

https://preview.redd.it/eid3d8rm0pyg1.png?width=858&format=png&auto=webp&s=471f80aa92fc9968177e40e53b6bb000eb3a214d

https://preview.redd.it/drz219on0pyg1.png?width=859&format=png&auto=webp&s=eac3cd8e3617a90b4887090a32282fbacd6af923

https://preview.redd.it/voqn4fro0pyg1.png?width=1741&format=png&auto=webp&s=06c656bb1ef7826480db3595b9eb32adf130be13

同時に2つのリクエストを投げると少し変になります(各コンテキストサイズごとのベンチは3回実行して平均を取っています)

まあ、私はすべての説明を持っているわけではないので、私が何か間違ったことをしているなら教えてください(笑)。ただ、並列で高いコンテキストを扱うと、KV-cacheが同時に処理できる限界に当たるので、リクエストがスロットリングされ、その結果パフォーマンスが壊れます。

RunPod config

  • GPU: 2xRTX PRO 6000 96GB
  • 費用: レンタル $3.78/時間(もっと安い選択肢はあります)(または所有なら約$20K)
  • イメージ: vLLM Latest (vllm/vllm-openai:latest)
  • モデルを起動するまでの時間: 約5〜10分(主に、HFから130GBをダウンロードする時間に依存します)
  • ストレージ: 「コンテナディスク」のみ160GBで、他は0(永続ストレージは不要です。かなり高価です)
  • 「コンテナ開始コマンド」(再現用)

cyankiwi/MiniMax-M2.7-AWQ-4bit --host 0.0.0.0 --port 8000 --tensor-parallel-size 2 --gpu-memory-utilization=0.95 --trust-remote-code --kv-cache-dtype fp8_e4m3 --enable-auto-tool-choice --tool-call-parser minimax_m2

  • 消費電力(推定): 1450W(たぶんこれを超えている可能性があります。確信はないので、訂正できるならお願いします。あと、ある種のThreadripper CPUを前提としています)

Spark config

  • 2x Asus Ascent GX10
  • 費用: 所有で約$7K(レンタルの選択肢は限られています)
  • 消費電力: 平均365W(アイドル時はモデル準備完了状態で100Wに待機している—私の感覚ではかなり悪い) | 編集: これらの値は、各sparkごとに個別のスマートプラグを使って壁のところで測定しました

このレシピを使用: https://github.com/eugr/spark-vllm-docker/blob/main/recipes/minimax-m2.7-awq.yaml(fp8 KV-cacheで調整)、./run-recipe.sh minimax-m2.7-awq --no-rayで起動

Benchmark

uvx llama-benchy --base-url https://{pod_id}-8000.proxy.runpod.net/v1 --depth 0 4096 8192 16384 32768 65536 131072 --latency-mode generation --concurrency 1 2 --tg 512 

(さらに高いconcurrencyでも試しましたが、分析は同時1と2リクエストに絞りました。結果はここにあります: https://nicefox.net/benchmarks/minimax-m2.7-awq-4bit/benchmarks_concurrency.md

Conclusion

まあ……プリフィルは2.7倍速いだけで、トークン生成は4.9倍速く、そしてどちらのセットアップもエネルギー効率は似たような感じでした。Max-Q版なら、かなりエネルギー効率が高いはずだと見ています。

主な違いは、Sparkクラスタは私の毎日の稼働環境(デイリードライバー)なので、より良くするための時間を使い、可能な限り最適なセットアップにしました。一方でRTX 6000は、RunPodから同じパラメータでvllmイメージを「起動しただけ」です。ただ、最適化できる余地があることは分かっています。

私は2x RTX 6000の構成にとても興味があります。小さな会社と一緒に、開発者向けにオンプレで適切にセットアップすることを進めているので、誰かがより良いセットアップを教えてくれれば、別のパラメータでも再ベンチするのは喜んでやります。

詳しい情報はこちらにあります(データをまとめただけです):https://nicefox.net/benchmarks/minimax-m2.7-awq-4bit/

submitted by /u/t4a8945
[link] [comments]