広告

M5 Max vs M3 Max 推論ベンチマーク(Qwen3.5、oMLX、128GB、40 GPUコア)

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この記事では、oMLX v0.2.23を使用して、40 GPUコアと128GBのユニファイドメモリを搭載した16インチMacBook Pro上で、3つのQwen 3.5モデルの同一ローカル推論ベンチマークを比較します。
M5 Max vs M3 Max Inference Benchmarks (Qwen3.5, oMLX, 128GB, 40 GPU cores)

oMLX v0.2.23を使用して、Qwen 3.5の3つのモデル(122B-A10B MoE、35B-A3B MoE、27B dense)に対し、GPUコア40基・統合メモリ128GBの16インチMacBook Pro同士で同一のベンチマークを実行しました。

pp1024/tg128でのクイック数値:

  • 35B-A3B: 134.5 vs 80.3 tg tok/s(1.7倍)
  • 122B-A10B: 65.3 vs 46.1 tg tok/s(1.4倍)
  • 27B dense: 32.8 vs 23.0 tg tok/s(1.4倍)

差はより長いコンテキストで拡大します。65Kでは、27B denseがM3 Maxで6.8 tg tok/sまで低下するのに対し、M5 Maxでは19.6です(2.9倍)。プリフィルの優位性はさらに大きくなり、長いコンテキストでは最大4倍になります。これはM5 MaxのGPU Neural Acceleratorsによってもたらされます。

バッチングは、エージェント型のワークロードで特に重要です。M5 Maxは35B-A3Bでバッチ4倍にするとスループットが2.54倍にスケールします。一方、denseモデルでのM3 Maxのバッチングは悪化します(122Bでバッチ2倍だと0.80倍)。614 GB/s vs 400 GB/sという帯域幅の差は、多段のエージェントループや並列のツール呼び出しにとって大きいです。

MoEの効率ももう一つの要点です。122Bモデル(10B active)は、両方のマシンで27B denseよりも速く生成します。アクティブなパラメータ数が速度を決め、モデルサイズそのものではありません。

すべてのチャートとデータによる完全なインタラクティブ内訳:https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f

submitted by /u/onil_gova
[link] [comments]

広告