MiniMax M2.7 GGUFの調査、修正、ベンチマーク

Reddit r/LocalLLaMA / 2026/4/15

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

調査の結果、MiniMax-M2.7 のGGUFファイルは Perplexity（パープレキシティ）評価中に NaN を生成しうることが判明し、Hugging Face へのGGUFアップロードの推定21%〜38%に影響している可能性が示された。
問題は llama.cpp におけるオーバーフロー挙動に起因すると特定され、特定の評価ブロック（とりわけブロック32、場合によってはブロック311）で NaN が現れることが確認された。
根本的な引き金は `blk.61.ffn_down_exps` と見なされ、特定の量子化バリアント（例：Q4_K および Q5_K ファミリ）では、PPL 評価のチャンク32以降で NaN が発生することが原因として特定された。
著者らは NaN 問題を軽減するために、Hugging Face 上で M2.7 GGUF の量子化セット（unsloth/MiniMax-M2.7-GGUF）を更新したが、パープレキシティでの NaN の正確な根本原因は依然として特定できていない。
99.9% KLD などの高い閾値メトリクスを用いたベンチマークでは、Perplexity が影響を受けた量子タイプで失敗する場合があっても、多くの品質指標は概ね問題ないことが示された。

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

やあ r/LocalLLaMA、私たちは、MiniMax-M2.7 GGUF が perplexity（当惑度）で NaN を引き起こす件について調査しました。私たちの調査結果では、この問題はHugging Face 上のすべての GGUF の 21%〜38%に影響しており（私たちのものだけではありません）。

他の人気コミュニティ投稿者にも 38%（10/26）で NaN があり、別の投稿者は（1/4）で削除していました。そして私たちのものでは 22%（5/23）に NaN がありました――私たちはそれを修正しました。
99.9% KLD や他の指標を実行すると、すべて問題ありません。
原因はllama.cpp でのオーバーフローだと突き止めました。
PPL、KLD 99.9% のベンチマークも実施しました――左下がより良いです。

https://preview.redd.it/46i7z9e1m7vg1.png?width=1600&format=png&auto=webp&s=bbfe77263d210211c1fc0d7a6a973d7027ce18af

block 32 の間に Perplexity で NaN が発生していました。これはコミュニティや他の量子化（quant）投稿者によっても見つかっていました。さらに block 311 も問題の原因になることが分かりました。
原因は blk.61.ffn_down_exps でした。つまり、これらの Q5_K と Q4_K は、PPL 評価中に chunk 32 から NaN を生成します。興味深いことに、IQ4_XS、IQ3_XXS、そしてより小さい I の量子型では NaN になりません。
これはかなり混乱を招きました。たとえば低ビットの量子化（例: Q2_K_XL）では NaN にならないのに、中くらいのサイズの量子化では NaN になったのです（Q4_K_XL など）。
現在、問題を軽減するために、M2.7 の量子化を https://huggingface.co/unsloth/MiniMax-M2.7-GGUF で更新しました。ただし、NaN を伴う perplexity の正確な原因はまだ分かっていません。たまたまかもしれませんし、可能性が高いのは、大きな掛け算（multiples）によってオーバーフローが起きることです。

私たちはどの量子化をテストしましたか？

NaNs（38%）が 10/26 見つかったもの：https://huggingface.co/bartowski/MiniMaxAI_MiniMax-M2.7-GGUF: Chunk-32 での失敗（9）：IQ3_XXS、IQ3_XS、IQ3_M、Q3_K_M、Q3_K_L、Q3_K_XL、Q4_K_S、Q4_1、Q5_K_S。終盤での失敗（1）：IQ1_S（chunk 311 でクラッシュ）
NaNs（21%）が 5/23 あったのは私たちのもの――すべて今は修正済み：https://huggingface.co/unsloth/MiniMax-M2.7-GGUF: UD-Q4_K_S、UD-Q4_K_M、UD-Q4_K_XL、UD-Q5_K_S、MXFP4_MOE。すべて block 32。
https://huggingface.co/AesSedai/MiniMax-M2.7-GGUF の Q4_K_M で NaN が 1/4。NaN のため削除されました。これも block 32 です。

また、CUDA 13.2 は依然として間違いなく問題です。 これにより、すべてのモデルでいくつかの低ビット量子化が判別不能（gibberish）になります。問題ではないとして片付けた人もいますが、私たちが見た限りでは、CUDA 13.1 以下を使うと直ることを 50 人以上がすでに確認しています。Hugging Face のディスカッション、Reddit の投稿などで、公開されているコメントの一部も確認できます。NVIDIA は、この問題を調査していることを認めています――Unsloth Issue 4849、llama.cpp issue 21255、issue 21371 をご覧ください。

ご質問があればぜひ聞いてください。また、いつも変わらぬご支援に改めて感謝します。どうもありがとうございます。よい一週間をお過ごしください。

submitted by /u/danielhanchen
[link] [comments]

Black Hat USA

AI Business

Black Hat Asia

AI Business

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

Publickey

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

MiniMax M2.7 GGUFの調査、修正、ベンチマーク

要点

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し