ローカルでコーディングするために「2台のSparks」を検討する

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 4x RTX 3090(VRAM 96GB)の環境で、Qwen3.5-122B-A10B(AWQ)をローカルのWebアプリ開発(HTML/JS/Python)に使い、約20万トークンのコンテキストまで試したところ、約10万トークン付近でのトークン速度はおよそ15 tok/sだったという。
  • 彼(投稿者)は、MiniMax M2.7と組み合わせて「Sparks」2台を導入し、プロンプト処理の速度を許容範囲に保つために2デバイスで並列化することを検討している。
  • 導入案では合計256GBのVRAM(128GB×2)を確保でき、将来のモデル(次期MiniMax版やQwen3.6-122Bなど)にも余裕があるとしている。
  • 省電力面では、Sparksあたりのアイドル消費電力は約50Wと見積もり、現在の4x3090構成のアイドル(約130W)や最大負荷時ピーク(約750W)と比較して効率改善を狙っている。
  • 現在の96GB VRAMではMiniMax M2.7を十分にロードしてベンチマークできず、さらにDDR4 2133の遅さがプロンプト処理のボトルネックになっている可能性があるため、HTML/JS/Pythonの実タスクでQwen3.5-122B-A10B(AWQ)よりどれくらい良くなるかを他者に質問している。

現在、4x RTX 3090 のシステム(96GB VRAM、DDR4 2133 RAM)を使っており、Qwen3.5-122B-A10B(AWQ)で、Webアプリのコーディング(html/js/python)向けに最大200kのコンテキストまで、opencode と pi.dev をテストしました。いまは真剣に、ローカル推論のために MiniMax M2.7 と組み合わせた 2 台の Sparks を導入しようかと考えています。

プロンプト処理を許容できる速度に保つには、2台が必要です。出力トークン/秒は、〜100kのコンテキストで約15 tok/s といった点で、(私がここで見た限りでは)コンテキスト量に関わらず同じままです。2 * 128 GB = 256 GB のVRAMにより、今後のモデルに備えた余裕があります(次の MiniMax のバージョン、Qwen3.6-122B)。

アイドル消費電力:壁計測で Spark 1台あたり〜50W。私の4x 3090 の構成はアイドル時に〜130Wです(全カードを275Wにパワー制限、nvidia-smi でカードあたり22Wのアイドル)。122Bモデルでフル負荷にすると、ピークは〜750Wになります。

コーディングセッションでは、コンテキストを〜120kトークンまで必要とします。上記の数字から判断すると、MiniMax M2.7 を使う2台のSparksなら、その範囲で許容できる速度を出せるはずで、私はそれで十分だと思っています。

現在の環境では MiniMax M2.7 を適切にベンチマークできません。96GB VRAM では快適にロードするのが難しく、さらに遅い DDR4 2133 RAM が、そもそもプロンプト処理のボトルネックになっています。

あなたの経験が気になります。実際のコーディングタスク(HTML/JS/Python)において、MiniMax M2.7 は Qwen3.5-122B-A10B(AWQ)よりどれくらい良いのでしょうか。事前にありがとうございます。

submitted by /u/chikengunya
[link] [comments]