| やあ r/LocalLLaMA、私たちは、MiniMax-M2.7 GGUF が perplexity(当惑度)で NaN を引き起こす件について調査しました。私たちの調査結果では、この問題はHugging Face 上のすべての GGUF の 21%〜38%に影響しており(私たちのものだけではありません)。
私たちはどの量子化をテストしましたか?
また、CUDA 13.2 は依然として間違いなく問題です。 これにより、すべてのモデルでいくつかの低ビット量子化が判別不能(gibberish)になります。問題ではないとして片付けた人もいますが、私たちが見た限りでは、CUDA 13.1 以下を使うと直ることを 50 人以上がすでに確認しています。Hugging Face のディスカッション、Reddit の投稿などで、公開されているコメントの一部も確認できます。NVIDIA は、この問題を調査していることを認めています――Unsloth Issue 4849、llama.cpp issue 21255、issue 21371 をご覧ください。 ご質問があればぜひ聞いてください。また、いつも変わらぬご支援に改めて感謝します。どうもありがとうございます。よい一週間をお過ごしください。 [link] [comments] |
MiniMax M2.7 GGUFの調査、修正、ベンチマーク
Reddit r/LocalLLaMA / 2026/4/15
💬 オピニオンTools & Practical UsageModels & Research
要点
- 調査の結果、MiniMax-M2.7 のGGUFファイルは Perplexity(パープレキシティ)評価中に NaN を生成しうることが判明し、Hugging Face へのGGUFアップロードの推定21%〜38%に影響している可能性が示された。
- 問題は llama.cpp におけるオーバーフロー挙動に起因すると特定され、特定の評価ブロック(とりわけブロック32、場合によってはブロック311)で NaN が現れることが確認された。
- 根本的な引き金は `blk.61.ffn_down_exps` と見なされ、特定の量子化バリアント(例:Q4_K および Q5_K ファミリ)では、PPL 評価のチャンク32以降で NaN が発生することが原因として特定された。
- 著者らは NaN 問題を軽減するために、Hugging Face 上で M2.7 GGUF の量子化セット(unsloth/MiniMax-M2.7-GGUF)を更新したが、パープレキシティでの NaN の正確な根本原因は依然として特定できていない。
- 99.9% KLD などの高い閾値メトリクスを用いたベンチマークでは、Perplexity が影響を受けた量子タイプで失敗する場合があっても、多くの品質指標は概ね問題ないことが示された。




