| oMLX v0.2.23を使用して、Qwen 3.5の3つのモデル(122B-A10B MoE、35B-A3B MoE、27B dense)に対し、GPUコア40基・統合メモリ128GBの16インチMacBook Pro同士で同一のベンチマークを実行しました。 pp1024/tg128でのクイック数値:
差はより長いコンテキストで拡大します。65Kでは、27B denseがM3 Maxで6.8 tg tok/sまで低下するのに対し、M5 Maxでは19.6です(2.9倍)。プリフィルの優位性はさらに大きくなり、長いコンテキストでは最大4倍になります。これはM5 MaxのGPU Neural Acceleratorsによってもたらされます。 バッチングは、エージェント型のワークロードで特に重要です。M5 Maxは35B-A3Bでバッチ4倍にするとスループットが2.54倍にスケールします。一方、denseモデルでのM3 Maxのバッチングは悪化します(122Bでバッチ2倍だと0.80倍)。614 GB/s vs 400 GB/sという帯域幅の差は、多段のエージェントループや並列のツール呼び出しにとって大きいです。 MoEの効率ももう一つの要点です。122Bモデル(10B active)は、両方のマシンで27B denseよりも速く生成します。アクティブなパラメータ数が速度を決め、モデルサイズそのものではありません。 すべてのチャートとデータによる完全なインタラクティブ内訳:https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f [link] [comments] |
M5 Max vs M3 Max 推論ベンチマーク(Qwen3.5、oMLX、128GB、40 GPUコア)
Reddit r/LocalLLaMA / 2026/3/28
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この記事では、oMLX v0.2.23を使用して、40 GPUコアと128GBのユニファイドメモリを搭載した16インチMacBook Pro上で、3つのQwen 3.5モデルの同一ローカル推論ベンチマークを比較します。




