AI Navigate

M5 Max 128Gの性能テスト。新しいおもちゃを手に入れたので、これができることを紹介します。

Reddit r/LocalLLaMA / 2026/3/21

📰 ニュースSignals & Early TrendsTools & Practical Usage

要点

  • 本記事は、macOS 26.3.1 上で Metal バックエンドを用いた llama.cpp による Apple M5 Max のローカル LLM 推論の初公表ベンチマークを提示します。
  • システム仕様として、18コア CPU(12P + 6E)、40コア GPU、16コア Neural Engine、128GB の統合メモリ、614GB/s のメモリ帯域幅、そして 4TB NVMe SSD を挙げています。
  • 使用したソフトウェアスタックは llama.cpp v8420(ggml 0.9.8、Metal バックエンド)と MLX v0.31.1 + mlx-lm v0.31.1 です。
  • ベンチマークのワークフローは、知識ベースとプロジェクトを構築し、完全にローカルで動作する高度なAIアシスタントの性能を評価することに関係しています。
  • 本投稿は、オンデバイスの LLM ワークロードに対して M5 Max が強い可能性を持つと位置づけ、将来のハードウェア比較のベースラインを提供します。
21GB 21.0 安定しており、汎用性の高いモデル 4 Qwen 3.5 27B 27B Q6_K llama.cpp 21GB 16.5 同じモデル、llama.cppでは遅い 5 Qwen 2.5 72B 72B Q6_K llama.cpp 60GB 7.6 最大のモデル、まだ使用可能

Detailed Results by Prompt Type

llama.cpp Engine

モデル シンプル 推論 創造性 コーディング 知識 平均
DeepSeek-R1 8B Q6_K 72.7 73.2 73.2 72.7 72.2 72.8
Gemma 3 27B Q6_K 19.8 21.7 19.6 22.0 21.7 21.0
Qwen 3.5 27B Q6_K 20.3 17.8 14.7 14.7 14.8 16.5
Qwen 2.5 72B Q6_K 6.9 8.5 7.9 7.6 7.3 7.6

MLX Engine

Model シンプル 推論 創造性 コーディング 知識 平均
Qwen 3.5 27B 4bit 30.6 31.7 31.8 31.9 31.9 31.6

主な発見

1. メモリ帯域幅が最重要

トークン生成速度は直接 bandwidth / model_size と相関します:

  • DeepSeek-R1 8B (6.3GB): 614 / 6.3 = 97.5 理論値 → 72.8 実測値 (75% 効率)
  • Gemma 3 27B (21GB): 614 / 21 = 29.2 理論値 → 21.0 実測値 (72% 効率)
  • Qwen 2.5 72B (60GB): 614 / 60 = 10.2 理論値 → 7.6 実測値 (75% 効率)

M5 Max は理論上の最大帯域幅使用率の約73〜75%を一貫して達成します。

2. MLX は Qwen 3.5 に対して劇的に高速

  • llama.cpp:16.5 tok/s (Q6_K, 21GB)
  • MLX:31.6 tok/s (4bit, 16GB)
  • Delta:MLX は 92% 高速(1.9倍のスピードアップ)

これは llama.cpp が Apple Silicon 上で Qwen 3.5 アーキテクチャに対して既知の性能回帰があるとのコミュニティ報告を裏付けるものです。MLX のネイティブ Metal 実装はそれをはるかにうまく扱います。

3. DeepSeek-R1 8B は速度の王者

72.8 tok/s で、圧倒的な差で最速のモデルです。8B パラメータしかないにもかかわらず、思考過程を伴う推論(R1 アーキテクチャ)を備えています。速度が生の知識より重要なタスクには、これが定番のモデルです。

4. Qwen 3.5 27B + MLX は最適点

31.6 tok/s ほとんどのタスクで旧72B Qwen 2.5 よりベンチマークが優れるモデル。これは日常使用の推奨デフォルト設定です — インタラクティブなチャットには十分高速で、コーディングと推論にも賢い。

5. Qwen 2.5 72B は依然として有用

7.6 tok/s においては遅くなりますが、パラメータ数と知識の深さを最大化したいタスクにはまだ実用的です。30-40秒待つことで徹底した回答を得られるような複雑な分析に良い。

6. Gemma 3 27B は驚くほど安定している

全てのプロンプトタイプで21 tok/sを維持し、ばらつきは最小限です。llama.cpp では Qwen 3.5 より速いが、MLX ではおそらく遅い(Google のモデルアーキテクチャは GGUF/llama.cpp に最適化されている)。

速度と知性のトレードオフ

知性 ──────────────────────────────────────► 80 │ ●DeepSeek-R1 8B │ (72.8 tok/s) 60 │ │ 40 │ │ ●Qwen 3.5 27B MLX 30 │ (31.6 tok/s) │ 20 │ ●Gemma 3 27B │ (21.0 tok/s) │ ●Qwen 3.5 27B llama.cpp 10 │ (16.5 tok/s) │ ●Qwen 2.5 72B 0 │ (7.6 tok/s) └─────────────────────────────────────────────── 8B 27B 72B サイズ

最適モデル選択(セマンティック・ルーター)

用途 モデル エンジン tok/s 理由
迅速な質問、チャット DeepSeek-R1 8B llama.cpp 72.8 速度、十分に良い
コーディング、推論 Qwen 3.5 27B MLX 31.6 最適なバランス
深い分析 Qwen 2.5 72B llama.cpp 7.6 最大の知識
複雑な推論 Claude Sonnet/Opus API N/A ローカルでは足りないとき

意味的ルーターはクエリを分類し、自動的にルーティングすることができます:

  • 「2+2 はいくつですか?」 → DeepSeek-R1 8B(即座に)
  • 「認証付きの REST API を作成する」 → Qwen 3.5 27B MLX(高速かつ賢い)
  • 「この50ページの契約を分析する」 → Qwen 2.5 72B(徹底的)
  • 「分散システムアーキテクチャを設計する」 → Claude Opus(フロンティア)

ベンチマークの方法論

テストプロンプト

異なる能力をテストする5つのプロンプト:

  1. 簡単: 「フランスの首都はどこですか?」(待機時間、短い返答をテスト)
  2. 推論: 「農夫が羊を17ひき…」 (論理的思考をテスト)
  3. 創造性: 「Raspberry Pi 上の AI についての俳句を書く」 (創造性をテスト)
  4. コーディング: 「Python で回文チェッカーを書く」 (コード生成をテスト)
  5. 知識: 「TCP と UDP を説明する」 (事実の想起をテスト)

設定

  • llama.cpp: -ngl 99 -c 8192 -fa on -b 2048 -ub 2048 --mlock
  • MLX: --pipeline モード
  • 最大トークン数: 300
  • 温度: 0.7
  • 各モデルを新規ロード(コールドスタート)し、5つのプロンプトすべてでベンチマークを実施

測定

  • リクエスト送信から完全な応答を受け取るまでの経過時間
  • トークン/秒 = completion_tokens / 経過時間
  • ストリーミングなし(完全な応答を測定)

他の Apple Silicon との比較

チップ GPU コア 帯域幅 推定 27B Q6_K tok/s 出典
M1 Max 32 400 GB/s ~14 コミュニティ
M2 Max 38 400 GB/s ~15 コミュニティ
M3 Max 40 400 GB/s ~15 コミュニティ
M4 Max 40 546 GB/s ~19 コミュニティ
M5 Max 40 614 GB/s 21.0 このベンチマーク

この M5 Max は M4 Max より約10%の改善を示し、帯域幅の増加(614/546 = 1.12)に直接比例します。

日付

2026-03-20

投稿者 /u/affenhoden
[リンク] [コメント]