96GB VRAMフルオフロードでMiniMax-M2.7 vs Qwen3.5-122B-A10B?

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、ローカル推論ツールを用いた96GB VRAMフルオフロードのデュアルA6000構成で、2つのオープンウェイトGGUF量子化LLM—MiniMax-M2.7(IQ2_KS)とQwen3.5-122B-A10B(IQ5_KS)—を比較する。
  • 簡易なEvalPlus/humanevalの実行に基づくと、Qwen3.5-122B-A10BはMiniMax-M2.7より高いpass@1スコア(0.494)を達成し(MiniMax-M2.7は0.220)、全体的な評価挙動は同程度だという。
  • 実際のローカルコーディング(「vibecoding」)では、著者はQwen3.5が推論速度、コード品質、そしてワークフロー全体としてのユーザー体験においてより良いと報告している。
  • この記事では、性能は状況によって変動し、ベンチマークのハーネスが想定した設定を完全に反映していない可能性があることを強調しているが、結論としては、現時点の著者の96GBオフロード用途ではQwen3.5のほうが依然として適しているという見解だ。
MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

tl;dr;

96GB VRAMをフルオフロードする構成なら、今のところ私はおそらくMiniMax-M2.7よりQwen3.5-122B-A10Bを選びます。みなさんの体験を聞いてみたいです。

テストした量子化(Quants)

  • ubergarm/MiniMax-M2.7-GGUF IQ2_KS 69.800 GiB (2.622 BPW)
  • ubergarm/Qwen3.5-122B-A10B-GGUF IQ5_KS 77.341 GiB (5.441 BPW)

だらだら詳細

ローカルでのvibecodingがかなりうまく動く、複数のオープンウェイトLLMが今手に入るのは本当にすごいです! テストした量子化の両方で、opencodeを設定して思考を動的に有効/無効にできます(5語くらいのスレッドタイトルを生成するのが本当に速くなります笑)。

level1techsのWendellのおかげで、ベンチマークとGGUF量子化の作成のために96GB VRAMのリグにアクセスできています。普段のメイン機は、2基のA6000 GPUにフルオフロードしたQwen3.5-122Bです(各48GB VRAMの3090みたいな感じ)。そこに新しいMiniMax-M2.7の量子化が出てきたので、より量子化された大きいモデルのほうが良いのかどうかを決める必要がありました。

こういう複雑な問いに対する答えは、いつもだいたい「場合による!」です。

ただ、少なくとも私の用途では、推論速度、コードの品質、そして日常的な使い勝手の面で、Qwen3.5-122B-A10Bがまだ上だという感じです。

この見解を裏付けるデータはこちら:

humanevalベンチマーク

手早くEvalPlusのpythonクライアントをvibeっぽく作って、ik_llama.cppのllama-serverで動かした両方の量子化に、164問のhumanevalベンチマークを投げました。

指標 MiniMax-M2.7 IQ2_KS Qwen3.5-122B-A10B IQ5_KS
pass@1 (base) 0.220 0.494
pass@1 (base+extra) 0.220 0.482
評価時間 32:48 31:20

これはtemperature=1.0とtop_p=0.95を使用しました。どちらもMiniMaxのモデルカードで推奨されているものです。正直に言うと、これはvibecodingで作った簡易クライアントのテスト用ハーネスなので、何かがおかしい可能性はあります。結果って本来どんな見え方をするべきなんでしょうね、たぶん…笑。 でもQwen3.5のほうが高いスコアでした!

推論速度

評価に使ったのと同じバージョンのik_llama.cppで、同じようなコマンドを使って(llama-serverで評価するときと似た感じで)llama-sweep-benchを回し、96GB VRAMのほとんどを埋めるようにしました。MiniMax-2.7はもう少し先まで行けましたが、待つのに疲れてテストをcontrol-cで止めました。言いたいことは分かりますよね。

https://preview.redd.it/4t0gcl7y4uug1.png?width=2087&format=png&auto=webp&s=ea2db24e196c0e132efcf101aed8db205fd62b87

日常的な使い勝手(quality of life)

MiniMax-M2.7は自己のspeculative-decodingをいくつかサポートしていますが、Qwen3.5は(recurrent modelではないため)サポートしていません。とはいえ、160kのkv-cacheに収めるのにも、かなり強く量子化されたkv-cacheが必要になります。

Qwen3.5-122Bは、画像処理のためにmmprojを読み込んで動作し、256kの未量子化kv-cacheをフルでサポートします。これは単純に便利です。

結論

お腹すいた、もう夕食の時間だ。

submitted by /u/VoidAlchemy
[link] [comments]