MiniMax-M2.7(229B MoE)を量子化しました—HuggingFaceで利用可能な最初のGGUF量子化版です。
ファイル:
- Q3_K_L(約110 GB)— 128GBのユニファイドメモリに収まります
- Q8_0(約243 GB)— 256GB以上の環境向け
https://huggingface.co/ox-ox/MiniMax-M2.7-GGUF
現在PPLベンチマーク実行中(c=512、seed=1337)—結果で更新します。
M2.5のQ3_K_Lのベースライン: 8.7948 PPL、28.7 t/s
アーキテクチャ: MiniMax-M2 MoE、256エキスパート、1トークンあたり8アクティブ。
出典: FP8 safetensors → Q8_0 → Q3_K_L(llama.cpp経由)。
[リンク] [コメント]




