|
Mistral medium 3.5 128BをMLX 4bitに変換しました。推論デコード用のEagleモデルは、まだMLXではサポートされていません。 ビジョンエンコーダを内蔵(完全なBF16の非量子化。思考モードは動作します(reasoning_effort="high" を指定すると [THINK]...[/THINK] のチェーンが表示されます)、ツール呼び出しは動作します、256Kコンテキスト。 mlx-vlmの mistral3 sanitize 関数にバグがありました:ビジョンタワーとプロジェクタキーから model. prefix を取り除いていなかったのです。これにより438のパラメータがスキップされました。変換する前にローカルで修正しました。詳細はHFのreadmeにあります。 96 GBのM2 Maxで約5 tok/sです。サンプリングには、思考モードでは temp 0.7 / top_p 0.95 / top_k 20 の使用をおすすめします。また、素早い返信なら temp 0.0–0.7 / top_p 0.8 です。Mistralはリピートペナルティを無効のままにすることを推奨していますが、ループが多すぎます。最適な値がどれくらいかはまだ分かりません。 [link] [comments] |
Mistral medium 3.5 128B を MLX 4bit 化、約70GB(ただし現時点では不具合あり)
Reddit r/LocalLLaMA / 2026/5/1
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Redditの投稿では、Mistral Medium 3.5 128BをMLXの4bitに変換した事例が報告されており、推定で約70GBの容量となる一方、現時点では「壊れている」ように見えるとして一般利用は推奨されていません。
- 変換の要点として、Eagleの推論(speculative decoding)はMLX側で未対応であることが示されつつ、視覚エンコーダ(BF16の非量子化を同梱)、推論の「Thinking」モード、ツール呼び出し、256Kのコンテキスト長が動作するとされています。
- 投稿者は、mlx-vlmのmistral3 sanitize関数にある不具合(vision towerおよびprojectorのキーからmodel. prefixを剥がせていない問題)をローカルで修正したと述べており、未修正だと438パラメータがスキップされる影響があったようです。
- 性能としては、96GBメモリのM2 Maxで概ね約5トークン/秒が報告され、推論モードの推奨サンプリング設定や、ループが多い場合にrepeat penaltyの調整が必要になり得る点なども共有されています。
- 投稿者はトラブルシューティングに協力したい人向けに限定しており、変換の詳細や修正点はHugging FaceのREADMEへのリンクで確認できるとしています。



