| こんにちは、 このモデル/量子化(quant)は私の毎日の使用環境(デイリードライバー)で、セットアップを、3倍高価で4倍電力を食う(パワーをより消費する)構成と比較するための参照ベンチが欲しかったんです。 まず結果、次に手法、その後すべての結果へのリンクです モデル: cyankiwi/MiniMax-M2.7-AWQ-4bit 結果 (c1)(表をテキストとしてアップロードしようとしたのですが、期待どおりに動きませんでした) 率直に言って意外だったのですが、Sparkクラスタは思ったほど大差ありません。平均すると、2x RTX 6000はプロンプト処理で2.7倍速く、トークン生成では4.88倍速いです;価格差はおよそ2.9倍。 消費電力もかなり近い(1Mトークンあたりで報告)です。$0.10/kWhだと、こうなります: 結果 (c2)同時に2つのリクエストを投げると少し変になります(各コンテキストサイズごとのベンチは3回実行して平均を取っています) まあ、私はすべての説明を持っているわけではないので、私が何か間違ったことをしているなら教えてください(笑)。ただ、並列で高いコンテキストを扱うと、KV-cacheが同時に処理できる限界に当たるので、リクエストがスロットリングされ、その結果パフォーマンスが壊れます。 RunPod config
cyankiwi/MiniMax-M2.7-AWQ-4bit --host 0.0.0.0 --port 8000 --tensor-parallel-size 2 --gpu-memory-utilization=0.95 --trust-remote-code --kv-cache-dtype fp8_e4m3 --enable-auto-tool-choice --tool-call-parser minimax_m2
Spark config
このレシピを使用: https://github.com/eugr/spark-vllm-docker/blob/main/recipes/minimax-m2.7-awq.yaml(fp8 KV-cacheで調整)、 Benchmark (さらに高いconcurrencyでも試しましたが、分析は同時1と2リクエストに絞りました。結果はここにあります: https://nicefox.net/benchmarks/minimax-m2.7-awq-4bit/benchmarks_concurrency.md ) Conclusionまあ……プリフィルは2.7倍速いだけで、トークン生成は4.9倍速く、そしてどちらのセットアップもエネルギー効率は似たような感じでした。Max-Q版なら、かなりエネルギー効率が高いはずだと見ています。 主な違いは、Sparkクラスタは私の毎日の稼働環境(デイリードライバー)なので、より良くするための時間を使い、可能な限り最適なセットアップにしました。一方でRTX 6000は、RunPodから同じパラメータでvllmイメージを「起動しただけ」です。ただ、最適化できる余地があることは分かっています。 私は2x RTX 6000の構成にとても興味があります。小さな会社と一緒に、開発者向けにオンプレで適切にセットアップすることを進めているので、誰かがより良いセットアップを教えてくれれば、別のパラメータでも再ベンチするのは喜んでやります。 詳しい情報はこちらにあります(データをまとめただけです):https://nicefox.net/benchmarks/minimax-m2.7-awq-4bit/ [link] [comments] |
MiniMax M2.7 AWQ-4bit(2基Spark)vs 2基RTX 6000 96GB:性能とエネルギー効率
Reddit r/LocalLLaMA / 2026/5/2
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- この投稿は、MiniMax M2.7 AWQ 4-bit を2基Sparkクラスタと2基RTX 6000 96GB環境で動かした場合の性能およびエネルギー効率を、公開されているベンチマーク結果とリンクされた検証データに基づいて比較しています。
- RTX 6000構成の方が大幅に高価にもかかわらず、Sparkクラスタの遅れは思ったほど大きくないと報告されており、2x RTX 6000はプロンプト処理で約2.7倍、トークン生成で約4.88倍の高速化だったとされています。
- 投稿者は2つの構成の価格差をおよそ2.9倍と見積もり、Sparkクラスタを速度の完全な代替ではなくコストパフォーマンス重視の選択肢として位置づけています。
- 1Mトークンあたりで正規化した際の消費電力は両者で非常に近い(大差がない)とされ、スループットが異なるにもかかわらず電力面では似た挙動を示唆しています。
- 電力単価$0.10/kWhを前提に、計測した電力値を使ってワークロードあたりのエネルギーコストを見積もるための手段も提示されており、実運用の採算性を重視しています。




