M5 Max 128Gの性能テスト。新しいおもちゃを手に入れたので、これができることを紹介します。

Reddit r/LocalLLaMA / 2026/3/21

📰 ニュースSignals & Early TrendsTools & Practical Usage

共有:

要点

本記事は、macOS 26.3.1 上で Metal バックエンドを用いた llama.cpp による Apple M5 Max のローカル LLM 推論の初公表ベンチマークを提示します。
システム仕様として、18コア CPU（12P + 6E）、40コア GPU、16コア Neural Engine、128GB の統合メモリ、614GB/s のメモリ帯域幅、そして 4TB NVMe SSD を挙げています。
使用したソフトウェアスタックは llama.cpp v8420（ggml 0.9.8、Metal バックエンド）と MLX v0.31.1 + mlx-lm v0.31.1 です。
ベンチマークのワークフローは、知識ベースとプロジェクトを構築し、完全にローカルで動作する高度なAIアシスタントの性能を評価することに関係しています。
本投稿は、オンデバイスの LLM ワークロードに対して M5 Max が強い可能性を持つと位置づけ、将来のハードウェア比較のベースラインを提供します。

21GB 21.0 安定しており、汎用性の高いモデル 4 Qwen 3.5 27B 27B Q6_K llama.cpp 21GB 16.5 同じモデル、llama.cppでは遅い 5 Qwen 2.5 72B 72B Q6_K llama.cpp 60GB 7.6 最大のモデル、まだ使用可能

Detailed Results by Prompt Type

llama.cpp Engine

モデル	シンプル	推論	創造性	コーディング	知識	平均
DeepSeek-R1 8B Q6_K	72.7	73.2	73.2	72.7	72.2	72.8
Gemma 3 27B Q6_K	19.8	21.7	19.6	22.0	21.7	21.0
Qwen 3.5 27B Q6_K	20.3	17.8	14.7	14.7	14.8	16.5
Qwen 2.5 72B Q6_K	6.9	8.5	7.9	7.6	7.3	7.6

MLX Engine

Model	シンプル	推論	創造性	コーディング	知識	平均
Qwen 3.5 27B 4bit	30.6	31.7	31.8	31.9	31.9	31.6

主な発見

1. メモリ帯域幅が最重要

トークン生成速度は直接 bandwidth / model_size と相関します：

DeepSeek-R1 8B (6.3GB): 614 / 6.3 = 97.5 理論値 → 72.8 実測値 (75% 効率)
Gemma 3 27B (21GB): 614 / 21 = 29.2 理論値 → 21.0 実測値 (72% 効率)
Qwen 2.5 72B (60GB): 614 / 60 = 10.2 理論値 → 7.6 実測値 (75% 効率)

M5 Max は理論上の最大帯域幅使用率の約73〜75%を一貫して達成します。

2. MLX は Qwen 3.5 に対して劇的に高速

llama.cpp：16.5 tok/s (Q6_K, 21GB)
MLX：31.6 tok/s (4bit, 16GB)
Delta：MLX は 92% 高速（1.9倍のスピードアップ）

これは llama.cpp が Apple Silicon 上で Qwen 3.5 アーキテクチャに対して既知の性能回帰があるとのコミュニティ報告を裏付けるものです。MLX のネイティブ Metal 実装はそれをはるかにうまく扱います。

3. DeepSeek-R1 8B は速度の王者

72.8 tok/s で、圧倒的な差で最速のモデルです。8B パラメータしかないにもかかわらず、思考過程を伴う推論（R1 アーキテクチャ）を備えています。速度が生の知識より重要なタスクには、これが定番のモデルです。

4. Qwen 3.5 27B + MLX は最適点

31.6 tok/s ほとんどのタスクで旧72B Qwen 2.5 よりベンチマークが優れるモデル。これは日常使用の推奨デフォルト設定です — インタラクティブなチャットには十分高速で、コーディングと推論にも賢い。

5. Qwen 2.5 72B は依然として有用

7.6 tok/s においては遅くなりますが、パラメータ数と知識の深さを最大化したいタスクにはまだ実用的です。30-40秒待つことで徹底した回答を得られるような複雑な分析に良い。

6. Gemma 3 27B は驚くほど安定している

全てのプロンプトタイプで21 tok/sを維持し、ばらつきは最小限です。llama.cpp では Qwen 3.5 より速いが、MLX ではおそらく遅い（Google のモデルアーキテクチャは GGUF/llama.cpp に最適化されている）。

速度と知性のトレードオフ

知性 ──────────────────────────────────────► 80 │ ●DeepSeek-R1 8B │ (72.8 tok/s) 60 │ │ 40 │ │ ●Qwen 3.5 27B MLX 30 │ (31.6 tok/s) │ 20 │ ●Gemma 3 27B │ (21.0 tok/s) │ ●Qwen 3.5 27B llama.cpp 10 │ (16.5 tok/s) │ ●Qwen 2.5 72B 0 │ (7.6 tok/s) └─────────────────────────────────────────────── 8B 27B 72B サイズ

最適モデル選択（セマンティック・ルーター）

用途	モデル	エンジン	tok/s	理由
迅速な質問、チャット	DeepSeek-R1 8B	llama.cpp	72.8	速度、十分に良い
コーディング、推論	Qwen 3.5 27B	MLX	31.6	最適なバランス
深い分析	Qwen 2.5 72B	llama.cpp	7.6	最大の知識
複雑な推論	Claude Sonnet/Opus	API	N/A	ローカルでは足りないとき

意味的ルーターはクエリを分類し、自動的にルーティングすることができます:

「2+2 はいくつですか？」 → DeepSeek-R1 8B（即座に）
「認証付きの REST API を作成する」 → Qwen 3.5 27B MLX（高速かつ賢い）
「この50ページの契約を分析する」 → Qwen 2.5 72B（徹底的）
「分散システムアーキテクチャを設計する」 → Claude Opus（フロンティア）

ベンチマークの方法論

テストプロンプト

異なる能力をテストする5つのプロンプト:

簡単: 「フランスの首都はどこですか？」（待機時間、短い返答をテスト）
推論: 「農夫が羊を17ひき…」 (論理的思考をテスト)
創造性: 「Raspberry Pi 上の AI についての俳句を書く」 (創造性をテスト)
コーディング: 「Python で回文チェッカーを書く」 (コード生成をテスト)
知識: 「TCP と UDP を説明する」 (事実の想起をテスト)

設定

llama.cpp: -ngl 99 -c 8192 -fa on -b 2048 -ub 2048 --mlock
MLX: --pipeline モード
最大トークン数: 300
温度: 0.7
各モデルを新規ロード（コールドスタート）し、5つのプロンプトすべてでベンチマークを実施

測定

リクエスト送信から完全な応答を受け取るまでの経過時間
トークン/秒 = completion_tokens / 経過時間
ストリーミングなし（完全な応答を測定）

他の Apple Silicon との比較

チップ	GPU コア	帯域幅	推定 27B Q6_K tok/s	出典
M1 Max	32	400 GB/s	~14	コミュニティ
M2 Max	38	400 GB/s	~15	コミュニティ
M3 Max	40	400 GB/s	~15	コミュニティ
M4 Max	40	546 GB/s	~19	コミュニティ
M5 Max	40	614 GB/s	21.0	このベンチマーク

この M5 Max は M4 Max より約10%の改善を示し、帯域幅の増加（614/546 = 1.12）に直接比例します。

日付

2026-03-20

投稿者 /u/affenhoden
[リンク] [コメント]

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

2026年版 AIを活用した暗号資産ペーパートレード入門ガイド

Dev.to

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

M5 Max 128Gの性能テスト。新しいおもちゃを手に入れたので、これができることを紹介します。

要点

Detailed Results by Prompt Type

llama.cpp Engine

MLX Engine

主な発見

1. メモリ帯域幅が最重要

2. MLX は Qwen 3.5 に対して劇的に高速

3. DeepSeek-R1 8B は速度の王者

4. Qwen 3.5 27B + MLX は最適点

5. Qwen 2.5 72B は依然として有用

6. Gemma 3 27B は驚くほど安定している

速度と知性のトレードオフ

最適モデル選択（セマンティック・ルーター）

ベンチマークの方法論

テストプロンプト

設定

測定

他の Apple Silicon との比較

日付

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

2026年版 AIを活用した暗号資産ペーパートレード入門ガイド

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer