MiMo-V2.5-GGUF（プレビューあり）

Reddit r/LocalLLaMA / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

AesSedaiは、llama.cppでMiMo V2.5のテキストtoテキスト推論を可能にするためのPRを公開しており、V2.5の対応が終わり次第Proなどの派生にも拡張される見込みです。
MiMo V2.5のGGUF量子化モデルはHugging Faceにアップロードされており、Q8_0に加えてFFN（フィードフォワード層）を圧縮するMoE最適化量子化も提供されています。
Q4_K_Mの量子化でNAN問題が見つかり（特定の層にあるffn_down_expsテンソルが原因だと推定）、修正後に動作するバージョンが再アップロードされました。
著者は、他のコミュニティメンテナも近いうちに追加の量子化を行うだろうと述べていますが、PRはまだマージ前で、レビューやマージまでに変更が入る可能性があります。
マージを早めるため、プレビュー段階の内容を試して問題があれば報告するよう呼びかけています。

こんにちは、AesSedaiです。

llama.cpp で MiMo V2.5 のテキストtoテキスト推論をサポートするための PR を用意しました（V2.5 が終わったら Pro でも同様に対応するはずです）。https://github.com/ggml-org/llama.cpp/pull/22493

また、HF にいくつかの量子化モデルもアップしました（https://huggingface.co/AesSedai/MiMo-V2.5-GGUF）。Q8_0 だけでなく、いつもの MoE 最適化した量子化モデルもあります（初めての方のために説明すると、基本的には多くのモデルで Q8_0 か Q6_K で、FFN（FFNs）を量子化時に下げています）。Q4_K_M には NAN という妙な問題があり、調べています。おそらく 47 層目の ffn_down_exps tensor だと思っています（編集：NAN の問題は修正しました。動作する Q4_K_M をアップロードしました！）

Bartowski、Ubergarm、Unsloth、そして私たちの素敵な llama 量子化カルトの残りの皆さんも、近いうちにそれぞれの量子化モデルをフォローしてくれるはずです。

ただ、これはまだマージ前なので、変更が入る可能性はありますが、この PR ができればすぐにレビューされてマージされることを願っています。何か問題があれば教えてください。

submitted by /u/Digger412
[link] [comments]

Black Hat USA

AI Business

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

MiMo-V2.5-GGUF（プレビューあり）

要点

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力