現在、4x RTX 3090 のシステム(96GB VRAM、DDR4 2133 RAM)を使っており、Qwen3.5-122B-A10B(AWQ)で、Webアプリのコーディング(html/js/python)向けに最大200kのコンテキストまで、opencode と pi.dev をテストしました。いまは真剣に、ローカル推論のために MiniMax M2.7 と組み合わせた 2 台の Sparks を導入しようかと考えています。
プロンプト処理を許容できる速度に保つには、2台が必要です。出力トークン/秒は、〜100kのコンテキストで約15 tok/s といった点で、(私がここで見た限りでは)コンテキスト量に関わらず同じままです。2 * 128 GB = 256 GB のVRAMにより、今後のモデルに備えた余裕があります(次の MiniMax のバージョン、Qwen3.6-122B)。
アイドル消費電力:壁計測で Spark 1台あたり〜50W。私の4x 3090 の構成はアイドル時に〜130Wです(全カードを275Wにパワー制限、nvidia-smi でカードあたり22Wのアイドル)。122Bモデルでフル負荷にすると、ピークは〜750Wになります。
コーディングセッションでは、コンテキストを〜120kトークンまで必要とします。上記の数字から判断すると、MiniMax M2.7 を使う2台のSparksなら、その範囲で許容できる速度を出せるはずで、私はそれで十分だと思っています。
現在の環境では MiniMax M2.7 を適切にベンチマークできません。96GB VRAM では快適にロードするのが難しく、さらに遅い DDR4 2133 RAM が、そもそもプロンプト処理のボトルネックになっています。
あなたの経験が気になります。実際のコーディングタスク(HTML/JS/Python)において、MiniMax M2.7 は Qwen3.5-122B-A10B(AWQ)よりどれくらい良いのでしょうか。事前にありがとうございます。
[link] [comments]




