| tl;dr;96GB VRAMをフルオフロードする構成なら、今のところ私はおそらくMiniMax-M2.7よりQwen3.5-122B-A10Bを選びます。みなさんの体験を聞いてみたいです。 テストした量子化(Quants)
だらだら詳細ローカルでのvibecodingがかなりうまく動く、複数のオープンウェイトLLMが今手に入るのは本当にすごいです! テストした量子化の両方で、 level1techsのWendellのおかげで、ベンチマークとGGUF量子化の作成のために96GB VRAMのリグにアクセスできています。普段のメイン機は、2基のA6000 GPUにフルオフロードしたQwen3.5-122Bです(各48GB VRAMの3090みたいな感じ)。そこに新しいMiniMax-M2.7の量子化が出てきたので、より量子化された大きいモデルのほうが良いのかどうかを決める必要がありました。 こういう複雑な問いに対する答えは、いつもだいたい「場合による!」です。 ただ、少なくとも私の用途では、推論速度、コードの品質、そして日常的な使い勝手の面で、Qwen3.5-122B-A10Bがまだ上だという感じです。 この見解を裏付けるデータはこちら: humanevalベンチマーク手早く
これはtemperature=1.0とtop_p=0.95を使用しました。どちらもMiniMaxのモデルカードで推奨されているものです。正直に言うと、これはvibecodingで作った簡易クライアントのテスト用ハーネスなので、何かがおかしい可能性はあります。結果って本来どんな見え方をするべきなんでしょうね、たぶん…笑。 でもQwen3.5のほうが高いスコアでした! 推論速度評価に使ったのと同じバージョンのik_llama.cppで、同じようなコマンドを使って(llama-serverで評価するときと似た感じで)llama-sweep-benchを回し、96GB VRAMのほとんどを埋めるようにしました。MiniMax-2.7はもう少し先まで行けましたが、待つのに疲れてテストをcontrol-cで止めました。言いたいことは分かりますよね。 日常的な使い勝手(quality of life)MiniMax-M2.7は自己のspeculative-decodingをいくつかサポートしていますが、Qwen3.5は(recurrent modelではないため)サポートしていません。とはいえ、160kのkv-cacheに収めるのにも、かなり強く量子化されたkv-cacheが必要になります。 Qwen3.5-122Bは、画像処理のためにmmprojを読み込んで動作し、256kの未量子化kv-cacheをフルでサポートします。これは単純に便利です。 結論お腹すいた、もう夕食の時間だ。 [link] [comments] |
96GB VRAMフルオフロードでMiniMax-M2.7 vs Qwen3.5-122B-A10B?
Reddit r/LocalLLaMA / 2026/4/13
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 著者は、ローカル推論ツールを用いた96GB VRAMフルオフロードのデュアルA6000構成で、2つのオープンウェイトGGUF量子化LLM—MiniMax-M2.7(IQ2_KS)とQwen3.5-122B-A10B(IQ5_KS)—を比較する。
- 簡易なEvalPlus/humanevalの実行に基づくと、Qwen3.5-122B-A10BはMiniMax-M2.7より高いpass@1スコア(0.494)を達成し(MiniMax-M2.7は0.220)、全体的な評価挙動は同程度だという。
- 実際のローカルコーディング(「vibecoding」)では、著者はQwen3.5が推論速度、コード品質、そしてワークフロー全体としてのユーザー体験においてより良いと報告している。
- この記事では、性能は状況によって変動し、ベンチマークのハーネスが想定した設定を完全に反映していない可能性があることを強調しているが、結論としては、現時点の著者の96GBオフロード用途ではQwen3.5のほうが依然として適しているという見解だ。




