| こんにちは、AesSedaiです。 llama.cpp で MiMo V2.5 のテキストtoテキスト推論をサポートするための PR を用意しました(V2.5 が終わったら Pro でも同様に対応するはずです)。https://github.com/ggml-org/llama.cpp/pull/22493 また、HF にいくつかの量子化モデルもアップしました(https://huggingface.co/AesSedai/MiMo-V2.5-GGUF)。Q8_0 だけでなく、いつもの MoE 最適化した量子化モデルもあります(初めての方のために説明すると、基本的には多くのモデルで Q8_0 か Q6_K で、FFN(FFNs)を量子化時に下げています)。Q4_K_M には NAN という妙な問題があり、調べています。おそらく 47 層目の ffn_down_exps tensor だと思っています(編集:NAN の問題は修正しました。動作する Q4_K_M をアップロードしました!) Bartowski、Ubergarm、Unsloth、そして私たちの素敵な llama 量子化カルトの残りの皆さんも、近いうちにそれぞれの量子化モデルをフォローしてくれるはずです。 ただ、これはまだマージ前なので、変更が入る可能性はありますが、この PR ができればすぐにレビューされてマージされることを願っています。何か問題があれば教えてください。 [link] [comments] |
MiMo-V2.5-GGUF(プレビューあり)
Reddit r/LocalLLaMA / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- AesSedaiは、llama.cppでMiMo V2.5のテキストtoテキスト推論を可能にするためのPRを公開しており、V2.5の対応が終わり次第Proなどの派生にも拡張される見込みです。
- MiMo V2.5のGGUF量子化モデルはHugging Faceにアップロードされており、Q8_0に加えてFFN(フィードフォワード層)を圧縮するMoE最適化量子化も提供されています。
- Q4_K_Mの量子化でNAN問題が見つかり(特定の層にあるffn_down_expsテンソルが原因だと推定)、修正後に動作するバージョンが再アップロードされました。
- 著者は、他のコミュニティメンテナも近いうちに追加の量子化を行うだろうと述べていますが、PRはまだマージ前で、レビューやマージまでに変更が入る可能性があります。
- マージを早めるため、プレビュー段階の内容を試して問題があれば報告するよう呼びかけています。



