Mistral medium 3.5 128B を MLX 4bit 化、約70GB(ただし現時点では不具合あり)

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditの投稿では、Mistral Medium 3.5 128BをMLXの4bitに変換した事例が報告されており、推定で約70GBの容量となる一方、現時点では「壊れている」ように見えるとして一般利用は推奨されていません。
  • 変換の要点として、Eagleの推論(speculative decoding)はMLX側で未対応であることが示されつつ、視覚エンコーダ(BF16の非量子化を同梱)、推論の「Thinking」モード、ツール呼び出し、256Kのコンテキスト長が動作するとされています。
  • 投稿者は、mlx-vlmのmistral3 sanitize関数にある不具合(vision towerおよびprojectorのキーからmodel. prefixを剥がせていない問題)をローカルで修正したと述べており、未修正だと438パラメータがスキップされる影響があったようです。
  • 性能としては、96GBメモリのM2 Maxで概ね約5トークン/秒が報告され、推論モードの推奨サンプリング設定や、ループが多い場合にrepeat penaltyの調整が必要になり得る点なども共有されています。
  • 投稿者はトラブルシューティングに協力したい人向けに限定しており、変換の詳細や修正点はHugging FaceのREADMEへのリンクで確認できるとしています。
Mistral medium 3.5 128B, MLX 4bit, ~70 GB

現時点では、このモデルは完全に壊れているように見えます。トラブルシュートを手伝うつもりがない限り、ダウンロードしたり使ったりすることはおすすめしません。これは変換の問題ではなく、モデルそのものの問題です。

Mistral medium 3.5 128BをMLX 4bitに変換しました。推論デコード用のEagleモデルは、まだMLXではサポートされていません。

ビジョンエンコーダを内蔵(完全なBF16の非量子化。思考モードは動作します(reasoning_effort="high" を指定すると [THINK]...[/THINK] のチェーンが表示されます)、ツール呼び出しは動作します、256Kコンテキスト。

mlx-vlmの mistral3 sanitize 関数にバグがありました:ビジョンタワーとプロジェクタキーから model. prefix を取り除いていなかったのです。これにより438のパラメータがスキップされました。変換する前にローカルで修正しました。詳細はHFのreadmeにあります。

96 GBのM2 Maxで約5 tok/sです。サンプリングには、思考モードでは temp 0.7 / top_p 0.95 / top_k 20 の使用をおすすめします。また、素早い返信なら temp 0.0–0.7 / top_p 0.8 です。Mistralはリピートペナルティを無効のままにすることを推奨していますが、ループが多すぎます。最適な値がどれくらいかはまだ分かりません。

submitted by /u/ex-arman68
[link] [comments]