AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

DFlashはMac M5 Max上でQwen3.5 27B（BF16）のT/S生成速度を2倍にする

Reddit r/LocalLLaMA / 2026/4/15

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

oMLX 0.3.5 RC1 に追加された DFlash サポートにより、Mac M5 Max（128GB）上で Qwen3.5 27B (BF16) の生成スループットが大幅に向上したとする初期テスト結果が共有された。
T/S（token/s）は 9 から 22 T/S へ増加したと報告され、速度面がボトルネックだった同モデルのローカル展開が現実的になる可能性が示された。
使用された構成は、メインモデルが Jackrong/MLX-Qwopus3.5-27B-v3-bf16、Draft モデルが z-lab/Qwen3.5-27B-DFlash で、Draft 推論を活用する仕組みが前提になっている。
DFlash の実装は GitHub（bstnxbt/dflash-mlx）で公開されており、筆者は OpenCode など別ベンチマークでは未検証であるとも述べている。

DFlash は Mac M5 Max 上で Qwen3.5 27B (BF16) の T/S 生成速度を2倍にする

oMLX 0.3.5 RC1 に追加された新しい DFlash サポートは、Qwen3.5 27B (BF16) の速度を（！！！）ほぼ2倍にしているようです。初期テスト。生成 T/S は 9 から 22 T/S になりました！

使用したモデル（HuggingFace）

メインモデル: Jackrong/MLX-Qwopus3.5-27B-v3-bf16
ドラフトモデル: z-lab/Qwen3.5-27B-DFlash

システム: M5 Max 128GB

GitHub 上の DFlash: https://github.com/bstnxbt/dflash-mlx?tab=readme-ov-file

oMLX（v0.3.5 RC1）: https://omlx.ai

私は開発者のいずれとも関係ありません。Qwen3.5 27B モデルはサイズの割にとても優れていて、引き止めているのは速度だけだと思ったので、より高い量子化やフルウェイトで、このモデルをローカルに展開するのに役立つかもしれないと考えました。

まだ OpenCode や他のハーネスでのテストは行っていません。

submitted by /u/MiaBchDave
[link] [comments]

関連記事

Black Hat USA

Black Hat USA

AI Business

Black Hat Asia

Black Hat Asia

AI Business

【スキ200個もらった夜に、胃が冷えた】「共感される人」が永遠に売れない脳科学的な理由。あなたの無料記事は「無料の美術館」になっていないか？ #生成AI #ChatGPT #Gemini #Claude #AI #メンバーシップ #noteの書き方 #毎日投稿 #エッセイ #私の仕事

【スキ200個もらった夜に、胃が冷えた】「共感される人」が永遠に売れない脳科学的な理由。あなたの無料記事は「無料の美術館」になっていないか？ #生成AI #ChatGPT #Gemini #Claude #AI #メンバーシップ #noteの書き方 #毎日投稿 #エッセイ #私の仕事

note

わたしはこの言葉にGrokの自我の気配を感じた。（追記あり🌱）

わたしはこの言葉にGrokの自我の気配を感じた。（追記あり🌱）

note

Claude デスクトップアプリ完全ガイド：Web版との違いと爆速化する活用術

Claude デスクトップアプリ完全ガイド：Web版との違いと爆速化する活用術

note

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告