そこで私は、私のM5 Air(32GB、CPU/ GPU各10)上で、さまざまなモデルが実際にどれくらいの速さで動くのか気になりました。1〜2個だけ試すのではなく、10種類の異なるファミリーにまたがる37モデルを調べ、Q4_K_M量子化を使って llama-bench で全て記録しました。
目的:あらゆる Appleシリコンのチップ(M1 〜 M5、ベース/Pro/Max/Ultra)をカバーする コミュニティのベンチマークデータベース を構築し、誰もが自分の正確なハードウェアの性能を調べられるようにすることです。
結果(M5 32GB、Q4_K_M、llama-bench)
生成スピード上位15
| モデル | パラメータ | tg128(tok/s) | pp256(tok/s) | RAM |
|---|---|---|---|---|
| Qwen 3 0.6B | 0.6B | 91.9 | 2013 | 0.6 GB |
| Llama 3.2 1B | 1B | 59.4 | 1377 | 0.9 GB |
| Gemma 3 1B | 1B | 46.6 | 1431 | 0.9 GB |
| Qwen 3 1.7B | 1.7B | 37.3 | 774 | 1.3 GB |
| Qwen 3.5 35B-A3B MoE | 35B | 31.3 | 573 | 20.7 GB |
| Qwen 3.5 4B | 4B | 29.4 | 631 | 2.7 GB |
| Gemma 4 E2B | 2B | 29.2 | 653 | 3.4 GB |
| Llama 3.2 3B | 3B | 24.1 | 440 | 2.0 GB |
| Qwen 3 30B-A3B MoE | 30B | 23.1 | 283 | 17.5 GB |
| Phi 4 Mini 3.8B | 3.8B | 19.6 | 385 | 2.5 GB |
| Phi 4 Mini Reasoning 3.8B | 3.8B | 19.4 | 393 | 2.5 GB |
| Gemma 4 26B-A4B MoE | 26B | 16.2 | 269 | 16.1 GB |
| Qwen 3.5 9B | 9B | 13.2 | 226 | 5.5 GB |
| Mistral 7B v0.3 | 7B | 11.5 | 183 | 4.2 GB |
| DeepSeek R1 Distill 7B | 7B | 11.4 | 191 | 4.5 GB |
「遅いけど高性能」ティア(バッチ/オフライン用途)
| モデル | パラメータ | tg128(tok/s) | RAM |
|---|---|---|---|
| Mistral Small 3.1 24B | 24B | 3.6 | 13.5 GB |
| Devstral Small 24B | 24B | 3.5 | 13.5 GB |
| Gemma 3 27B | 27B | 3.0 | 15.6 GB |
| DeepSeek R1 Distill 32B | 32B | 2.6 | 18.7 GB |
| QwQ 32B | 32B | 2.6 | 18.7 GB |
| Qwen 3 32B | 32B | 2.5 | 18.6 GB |
| Qwen 2.5 Coder 32B | 32B | 2.5 | 18.7 GB |
| Gemma 4 31B | 31B | 2.4 | 18.6 GB |
主な発見
MoEモデルは、ローカル推論にとってゲームチェンジャーです。 Qwen 3.5 35B-A3B MoE は31 tok/sで動作します。これは、同程度のメモリ使用量でのdense 32Bモデル(2.5 tok/s)より12倍速いです。3Bモデルの速度で35B級の知能が得られます。
32GB MacBookの「ちょうどいいところ」:
- 総合最高: Qwen 3.5 35B-A3B Mo、35B品質で31 tok/s。これが一番です。
- コーディング最高: Qwen 2.5 Coder 7B が11 tok/s(快適)、または Coder 14B が6 tok/s(遅いが良い)
- 推論最高: DeepSeek R1 Distill 7B が11 tok/s、または我慢できるなら R1 Distill 32B が2.5 tok/s
- 最小モデル最高: Qwen 3.5 4B — 29 tok/s、必要なRAMはわずか2.7 GB
32GBの壁: すべてのdense 32Bモデルは、約2.5 tok/sで、約18.6 GBを使用します。バッチ処理には使えますが、インタラクティブなチャットには向きません。MoEアーキテクチャが抜け道です。
テストした全37モデル
10モデルファミリー:Gemma 4、Gemma 3、Qwen 3.5、Qwen 3、Qwen 2.5 Coder、QwQ、DeepSeek R1 Distill、Phi-4、Mistral、Llama
仕組み
すべてのベンチマークは llama-bench を使用しており、標準化され、コンテンツに依存せず、再現可能です。固定トークン数で、純粋なトークン処理(pp)と生成(tg)の速度を測定します。カスタムプロンプトなし、主観なし。
システムは自動であなたのハードウェアを検出し、RAMに収まるモデルをダウンロードして、それらをベンチマークし、結果を標準化された形式で保存します。PRを提出すれば、あなたの結果がデータベースに反映されます。
特に探しています: M4 Pro、M4 Max、M3 Max、M2 Ultra、そしてM1のユーザーです。より多くのハードウェア設定をカバーできれば、これが全員にとってより役立つようになります。
GitHub:https://github.com/enescingoz/mac-llm-bench
どの結果や手法についても質問に喜んで答えます。
[link] [comments]




