MiniMax-M2.7 Q3_K_L & Q8_0 — 最初のGGUF量子化、Apple Silicon（M3 Max 128GB）

Reddit r/LocalLLaMA / 2026/4/12

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

MiniMax-M2.7（229B MoE）がGGUF形式に量子化され、このモデルファミリにおける最初のGGUF量子化版としてHugging Faceで公開された。
2つのバリアントがリリースされた。Q3_K_L（約110GB）は128GBのユニファイドメモリを想定してApple Silicon向け、Q8_0（約243GB）は256GB以上の構成を想定している。
量子化パイプラインは、FP8 safetensorsをQ8_0に変換し、その後llama.cppを用いてQ3_K_Lへ変換する。
投稿では進行中のPPLベンチマーク（c=512、seed=1337）に触れ、先行のM2.5 Q3_K_Lのベースライン（PPL 8.7948、28.7 t/s）を参照値として提示している。
モデルは256エキスパートを持つMiniMax-M2のMoEで、トークンあたり8つのエキスパートがアクティブになる。これは、想定される性能や、ハードウェア階層ごとのデプロイ上のトレードオフに関係する。

MiniMax-M2.7（229B MoE）を量子化しました—HuggingFaceで利用可能な最初のGGUF量子化版です。

ファイル:

- Q3_K_L（約110 GB）— 128GBのユニファイドメモリに収まります

- Q8_0（約243 GB）— 256GB以上の環境向け

現在PPLベンチマーク実行中（c=512、seed=1337）—結果で更新します。

M2.5のQ3_K_Lのベースライン: 8.7948 PPL、28.7 t/s

アーキテクチャ: MiniMax-M2 MoE、256エキスパート、1トークンあたり8アクティブ。

出典: FP8 safetensors → Q8_0 → Q3_K_L（llama.cpp経由）。