MiniMax-M2.7 Q3_K_L & Q8_0 — 最初のGGUF量子化、Apple Silicon(M3 Max 128GB)

Reddit r/LocalLLaMA / 2026/4/12

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • MiniMax-M2.7(229B MoE)がGGUF形式に量子化され、このモデルファミリにおける最初のGGUF量子化版としてHugging Faceで公開された。
  • 2つのバリアントがリリースされた。Q3_K_L(約110GB)は128GBのユニファイドメモリを想定してApple Silicon向け、Q8_0(約243GB)は256GB以上の構成を想定している。
  • 量子化パイプラインは、FP8 safetensorsをQ8_0に変換し、その後llama.cppを用いてQ3_K_Lへ変換する。
  • 投稿では進行中のPPLベンチマーク(c=512、seed=1337)に触れ、先行のM2.5 Q3_K_Lのベースライン(PPL 8.7948、28.7 t/s)を参照値として提示している。
  • モデルは256エキスパートを持つMiniMax-M2のMoEで、トークンあたり8つのエキスパートがアクティブになる。これは、想定される性能や、ハードウェア階層ごとのデプロイ上のトレードオフに関係する。

MiniMax-M2.7(229B MoE)を量子化しました—HuggingFaceで利用可能な最初のGGUF量子化版です。

ファイル:

- Q3_K_L(約110 GB)— 128GBのユニファイドメモリに収まります

- Q8_0(約243 GB)— 256GB以上の環境向け

https://huggingface.co/ox-ox/MiniMax-M2.7-GGUF

現在PPLベンチマーク実行中(c=512、seed=1337)—結果で更新します。

M2.5のQ3_K_Lのベースライン: 8.7948 PPL、28.7 t/s

アーキテクチャ: MiniMax-M2 MoE、256エキスパート、1トークンあたり8アクティブ。

出典: FP8 safetensors → Q8_0 → Q3_K_L(llama.cpp経由)。

提出者: /u/Remarkable_Jicama775
[リンク] [コメント]