| oMLX 0.3.5 RC1 に追加された新しい DFlash サポートは、Qwen3.5 27B (BF16) の速度を(!!!)ほぼ2倍にしているようです。初期テスト。生成 T/S は 9 から 22 T/S になりました! 使用したモデル(HuggingFace) メインモデル: Jackrong/MLX-Qwopus3.5-27B-v3-bf16 システム: M5 Max 128GB GitHub 上の DFlash: https://github.com/bstnxbt/dflash-mlx?tab=readme-ov-file oMLX(v0.3.5 RC1): https://omlx.ai 私は開発者のいずれとも関係ありません。Qwen3.5 27B モデルはサイズの割にとても優れていて、引き止めているのは速度だけだと思ったので、より高い量子化やフルウェイトで、このモデルをローカルに展開するのに役立つかもしれないと考えました。 まだ OpenCode や他のハーネスでのテストは行っていません。 [link] [comments] |
DFlashはMac M5 Max上でQwen3.5 27B(BF16)のT/S生成速度を2倍にする
Reddit r/LocalLLaMA / 2026/4/15
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- oMLX 0.3.5 RC1 に追加された DFlash サポートにより、Mac M5 Max(128GB)上で Qwen3.5 27B (BF16) の生成スループットが大幅に向上したとする初期テスト結果が共有された。
- T/S(token/s)は 9 から 22 T/S へ増加したと報告され、速度面がボトルネックだった同モデルのローカル展開が現実的になる可能性が示された。
- 使用された構成は、メインモデルが Jackrong/MLX-Qwopus3.5-27B-v3-bf16、Draft モデルが z-lab/Qwen3.5-27B-DFlash で、Draft 推論を活用する仕組みが前提になっている。
- DFlash の実装は GitHub(bstnxbt/dflash-mlx)で公開されており、筆者は OpenCode など別ベンチマークでは未検証であるとも述べている。




