DFlashはMac M5 Max上でQwen3.5 27B(BF16)のT/S生成速度を2倍にする

Reddit r/LocalLLaMA / 2026/4/15

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • oMLX 0.3.5 RC1 に追加された DFlash サポートにより、Mac M5 Max(128GB)上で Qwen3.5 27B (BF16) の生成スループットが大幅に向上したとする初期テスト結果が共有された。
  • T/S(token/s)は 9 から 22 T/S へ増加したと報告され、速度面がボトルネックだった同モデルのローカル展開が現実的になる可能性が示された。
  • 使用された構成は、メインモデルが Jackrong/MLX-Qwopus3.5-27B-v3-bf16、Draft モデルが z-lab/Qwen3.5-27B-DFlash で、Draft 推論を活用する仕組みが前提になっている。
  • DFlash の実装は GitHub(bstnxbt/dflash-mlx)で公開されており、筆者は OpenCode など別ベンチマークでは未検証であるとも述べている。
DFlash は Mac M5 Max 上で Qwen3.5 27B (BF16) の T/S 生成速度を2倍にする

oMLX 0.3.5 RC1 に追加された新しい DFlash サポートは、Qwen3.5 27B (BF16) の速度を(!!!)ほぼ2倍にしているようです。初期テスト。生成 T/S は 9 から 22 T/S になりました!

使用したモデル(HuggingFace)

メインモデル: Jackrong/MLX-Qwopus3.5-27B-v3-bf16
ドラフトモデル: z-lab/Qwen3.5-27B-DFlash

システム: M5 Max 128GB

GitHub 上の DFlash: https://github.com/bstnxbt/dflash-mlx?tab=readme-ov-file

oMLX(v0.3.5 RC1): https://omlx.ai

私は開発者のいずれとも関係ありません。Qwen3.5 27B モデルはサイズの割にとても優れていて、引き止めているのは速度だけだと思ったので、より高い量子化やフルウェイトで、このモデルをローカルに展開するのに役立つかもしれないと考えました。

まだ OpenCode や他のハーネスでのテストは行っていません。

submitted by /u/MiaBchDave
[link] [comments]