Mistral medium 3.5 128B を MLX 4bit 化、約70GB（ただし現時点では不具合あり）

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Redditの投稿では、Mistral Medium 3.5 128BをMLXの4bitに変換した事例が報告されており、推定で約70GBの容量となる一方、現時点では「壊れている」ように見えるとして一般利用は推奨されていません。
変換の要点として、Eagleの推論（speculative decoding）はMLX側で未対応であることが示されつつ、視覚エンコーダ（BF16の非量子化を同梱）、推論の「Thinking」モード、ツール呼び出し、256Kのコンテキスト長が動作するとされています。
投稿者は、mlx-vlmのmistral3 sanitize関数にある不具合（vision towerおよびprojectorのキーからmodel. prefixを剥がせていない問題）をローカルで修正したと述べており、未修正だと438パラメータがスキップされる影響があったようです。
性能としては、96GBメモリのM2 Maxで概ね約5トークン/秒が報告され、推論モードの推奨サンプリング設定や、ループが多い場合にrepeat penaltyの調整が必要になり得る点なども共有されています。
投稿者はトラブルシューティングに協力したい人向けに限定しており、変換の詳細や修正点はHugging FaceのREADMEへのリンクで確認できるとしています。

Mistral medium 3.5 128B, MLX 4bit, ~70 GB

現時点では、このモデルは完全に壊れているように見えます。トラブルシュートを手伝うつもりがない限り、ダウンロードしたり使ったりすることはおすすめしません。これは変換の問題ではなく、モデルそのものの問題です。

Mistral medium 3.5 128BをMLX 4bitに変換しました。推論デコード用のEagleモデルは、まだMLXではサポートされていません。

ビジョンエンコーダを内蔵（完全なBF16の非量子化。思考モードは動作します（reasoning_effort="high" を指定すると [THINK]...[/THINK] のチェーンが表示されます）、ツール呼び出しは動作します、256Kコンテキスト。

mlx-vlmの mistral3 sanitize 関数にバグがありました：ビジョンタワーとプロジェクタキーから model. prefix を取り除いていなかったのです。これにより438のパラメータがスキップされました。変換する前にローカルで修正しました。詳細はHFのreadmeにあります。

96 GBのM2 Maxで約5 tok/sです。サンプリングには、思考モードでは temp 0.7 / top_p 0.95 / top_k 20 の使用をおすすめします。また、素早い返信なら temp 0.0–0.7 / top_p 0.8 です。Mistralはリピートペナルティを無効のままにすることを推奨していますが、ループが多すぎます。最適な値がどれくらいかはまだ分かりません。

submitted by /u/ex-arman68
[link] [comments]