Detailed Results by Prompt Type
llama.cpp Engine
| モデル | シンプル | 推論 | 創造性 | コーディング | 知識 | 平均 |
|---|---|---|---|---|---|---|
| DeepSeek-R1 8B Q6_K | 72.7 | 73.2 | 73.2 | 72.7 | 72.2 | 72.8 |
| Gemma 3 27B Q6_K | 19.8 | 21.7 | 19.6 | 22.0 | 21.7 | 21.0 |
| Qwen 3.5 27B Q6_K | 20.3 | 17.8 | 14.7 | 14.7 | 14.8 | 16.5 |
| Qwen 2.5 72B Q6_K | 6.9 | 8.5 | 7.9 | 7.6 | 7.3 | 7.6 |
MLX Engine
| Model | シンプル | 推論 | 創造性 | コーディング | 知識 | 平均 |
|---|---|---|---|---|---|---|
| Qwen 3.5 27B 4bit | 30.6 | 31.7 | 31.8 | 31.9 | 31.9 | 31.6 |
主な発見
1. メモリ帯域幅が最重要
トークン生成速度は直接 bandwidth / model_size と相関します:
- DeepSeek-R1 8B (6.3GB): 614 / 6.3 = 97.5 理論値 → 72.8 実測値 (75% 効率)
- Gemma 3 27B (21GB): 614 / 21 = 29.2 理論値 → 21.0 実測値 (72% 効率)
- Qwen 2.5 72B (60GB): 614 / 60 = 10.2 理論値 → 7.6 実測値 (75% 効率)
M5 Max は理論上の最大帯域幅使用率の約73〜75%を一貫して達成します。
2. MLX は Qwen 3.5 に対して劇的に高速
- llama.cpp:16.5 tok/s (Q6_K, 21GB)
- MLX:31.6 tok/s (4bit, 16GB)
- Delta:MLX は 92% 高速(1.9倍のスピードアップ)
これは llama.cpp が Apple Silicon 上で Qwen 3.5 アーキテクチャに対して既知の性能回帰があるとのコミュニティ報告を裏付けるものです。MLX のネイティブ Metal 実装はそれをはるかにうまく扱います。
3. DeepSeek-R1 8B は速度の王者
72.8 tok/s で、圧倒的な差で最速のモデルです。8B パラメータしかないにもかかわらず、思考過程を伴う推論(R1 アーキテクチャ)を備えています。速度が生の知識より重要なタスクには、これが定番のモデルです。
4. Qwen 3.5 27B + MLX は最適点
31.6 tok/s ほとんどのタスクで旧72B Qwen 2.5 よりベンチマークが優れるモデル。これは日常使用の推奨デフォルト設定です — インタラクティブなチャットには十分高速で、コーディングと推論にも賢い。
5. Qwen 2.5 72B は依然として有用
7.6 tok/s においては遅くなりますが、パラメータ数と知識の深さを最大化したいタスクにはまだ実用的です。30-40秒待つことで徹底した回答を得られるような複雑な分析に良い。
6. Gemma 3 27B は驚くほど安定している
全てのプロンプトタイプで21 tok/sを維持し、ばらつきは最小限です。llama.cpp では Qwen 3.5 より速いが、MLX ではおそらく遅い(Google のモデルアーキテクチャは GGUF/llama.cpp に最適化されている)。
速度と知性のトレードオフ
知性 ──────────────────────────────────────► 80 │ ●DeepSeek-R1 8B │ (72.8 tok/s) 60 │ │ 40 │ │ ●Qwen 3.5 27B MLX 30 │ (31.6 tok/s) │ 20 │ ●Gemma 3 27B │ (21.0 tok/s) │ ●Qwen 3.5 27B llama.cpp 10 │ (16.5 tok/s) │ ●Qwen 2.5 72B 0 │ (7.6 tok/s) └─────────────────────────────────────────────── 8B 27B 72B サイズ
最適モデル選択(セマンティック・ルーター)
| 用途 | モデル | エンジン | tok/s | 理由 |
|---|---|---|---|---|
| 迅速な質問、チャット | DeepSeek-R1 8B | llama.cpp | 72.8 | 速度、十分に良い |
| コーディング、推論 | Qwen 3.5 27B | MLX | 31.6 | 最適なバランス |
| 深い分析 | Qwen 2.5 72B | llama.cpp | 7.6 | 最大の知識 |
| 複雑な推論 | Claude Sonnet/Opus | API | N/A | ローカルでは足りないとき |
意味的ルーターはクエリを分類し、自動的にルーティングすることができます:
- 「2+2 はいくつですか?」 → DeepSeek-R1 8B(即座に)
- 「認証付きの REST API を作成する」 → Qwen 3.5 27B MLX(高速かつ賢い)
- 「この50ページの契約を分析する」 → Qwen 2.5 72B(徹底的)
- 「分散システムアーキテクチャを設計する」 → Claude Opus(フロンティア)
ベンチマークの方法論
テストプロンプト
異なる能力をテストする5つのプロンプト:
- 簡単: 「フランスの首都はどこですか?」(待機時間、短い返答をテスト)
- 推論: 「農夫が羊を17ひき…」 (論理的思考をテスト)
- 創造性: 「Raspberry Pi 上の AI についての俳句を書く」 (創造性をテスト)
- コーディング: 「Python で回文チェッカーを書く」 (コード生成をテスト)
- 知識: 「TCP と UDP を説明する」 (事実の想起をテスト)
設定
- llama.cpp:
-ngl 99 -c 8192 -fa on -b 2048 -ub 2048 --mlock - MLX:
--pipelineモード - 最大トークン数: 300
- 温度: 0.7
- 各モデルを新規ロード(コールドスタート)し、5つのプロンプトすべてでベンチマークを実施
測定
- リクエスト送信から完全な応答を受け取るまでの経過時間
- トークン/秒 = completion_tokens / 経過時間
- ストリーミングなし(完全な応答を測定)
他の Apple Silicon との比較
| チップ | GPU コア | 帯域幅 | 推定 27B Q6_K tok/s | 出典 |
|---|---|---|---|---|
| M1 Max | 32 | 400 GB/s | ~14 | コミュニティ |
| M2 Max | 38 | 400 GB/s | ~15 | コミュニティ |
| M3 Max | 40 | 400 GB/s | ~15 | コミュニティ |
| M4 Max | 40 | 546 GB/s | ~19 | コミュニティ |
| M5 Max | 40 | 614 GB/s | 21.0 | このベンチマーク |
この M5 Max は M4 Max より約10%の改善を示し、帯域幅の増加(614/546 = 1.12)に直接比例します。
日付
2026-03-20
投稿者 /u/affenhoden[リンク] [コメント]



