| Just dropped a 3bit mixed quant (5bit for embeds and prediction layers) for Mac users. There was only one 3 bit version of this model (from Unsloth), but it was very heavy and painfully slow: This one is twice as fast, and in my own agentic tests equally good. Turn on preserve thinking in jinja template on LM Studio with: {%- set preserve_thinking = true %} [link] [comments] |
Qwen3.6-27B-3bit-mlx · Hugging Face: 3 & 5 mixed quant for RAM poor Mac users.
Reddit r/LocalLLaMA / 4/27/2026
💬 OpinionDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
Key Points
- Hugging Faceに、Mac向けの「Qwen3.6-27B」の3bit混合量子化モデル(埋め込み層と予測層は5bit)への言及がありました。
- 以前はUnsloth由来の3bit版が1つしかなく、重くて動作が非常に遅かった一方で、今回のモデルは同等品質を保ちつつ2倍速いとされています。
- 投稿者はLM Studioでのエージェント的なテスト結果として、性能面でも「同等に良い」と評価しています。
- さらに、LM StudioのJinjaテンプレートで「preserve_thinking」を有効化する設定例が示されています({%- set preserve_thinking = true %})。




