MacBook Air M5(32GB)で37のLLMをベンチマークしてみた — 完全な結果 + 自分のMacをベンチマークするためのオープンソースツール

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、MacBook Air M5(32GB、10 CPU/10 GPU)上で、llama-benchを使いQ4_K_M量子化により37種類の異なるLLMをベンチマークし、完全な性能テーブルを公開している。
  • 結果は生成速度(例:上位は小型のQwen/Llama/Gemmaモデルや、Qwen 3.5 35B-A3B MoEのような大型MoEバリアントを含む)ごとに整理され、トークンのスループットとともにRAM使用量も報告されている。
  • このベンチマークは、Apple Silicon上での実機内性能に焦点を当てており、ハードウェア固有の比較をより検証・再現しやすくすることを目的としている。
  • 記事ではさらに、読者が自分のMac環境をベンチマークできるオープンソースのベンチマークツール/ワークフローも紹介し、コミュニティによるデータベースの拡大に貢献できるようにしている。
  • 総じて、この記事はMacのメモリ/スループット制約に収まるLLMを選ぶための実践的な指針を提供し、コミュニティ主導で比較可能な測定を可能にする。

そこで私は、私のM5 Air(32GB、CPU/ GPU各10)上で、さまざまなモデルが実際にどれくらいの速さで動くのか気になりました。1〜2個だけ試すのではなく、10種類の異なるファミリーにまたがる37モデルを調べ、Q4_K_M量子化を使って llama-bench で全て記録しました。

目的:あらゆる Appleシリコンのチップ(M1 〜 M5、ベース/Pro/Max/Ultra)をカバーする コミュニティのベンチマークデータベース を構築し、誰もが自分の正確なハードウェアの性能を調べられるようにすることです。

結果(M5 32GB、Q4_K_M、llama-bench)

生成スピード上位15

モデル パラメータ tg128(tok/s) pp256(tok/s) RAM
Qwen 3 0.6B 0.6B 91.9 2013 0.6 GB
Llama 3.2 1B 1B 59.4 1377 0.9 GB
Gemma 3 1B 1B 46.6 1431 0.9 GB
Qwen 3 1.7B 1.7B 37.3 774 1.3 GB
Qwen 3.5 35B-A3B MoE 35B 31.3 573 20.7 GB
Qwen 3.5 4B 4B 29.4 631 2.7 GB
Gemma 4 E2B 2B 29.2 653 3.4 GB
Llama 3.2 3B 3B 24.1 440 2.0 GB
Qwen 3 30B-A3B MoE 30B 23.1 283 17.5 GB
Phi 4 Mini 3.8B 3.8B 19.6 385 2.5 GB
Phi 4 Mini Reasoning 3.8B 3.8B 19.4 393 2.5 GB
Gemma 4 26B-A4B MoE 26B 16.2 269 16.1 GB
Qwen 3.5 9B 9B 13.2 226 5.5 GB
Mistral 7B v0.3 7B 11.5 183 4.2 GB
DeepSeek R1 Distill 7B 7B 11.4 191 4.5 GB

「遅いけど高性能」ティア(バッチ/オフライン用途)

モデル パラメータ tg128(tok/s) RAM
Mistral Small 3.1 24B 24B 3.6 13.5 GB
Devstral Small 24B 24B 3.5 13.5 GB
Gemma 3 27B 27B 3.0 15.6 GB
DeepSeek R1 Distill 32B 32B 2.6 18.7 GB
QwQ 32B 32B 2.6 18.7 GB
Qwen 3 32B 32B 2.5 18.6 GB
Qwen 2.5 Coder 32B 32B 2.5 18.7 GB
Gemma 4 31B 31B 2.4 18.6 GB

主な発見

MoEモデルは、ローカル推論にとってゲームチェンジャーです。 Qwen 3.5 35B-A3B MoE は31 tok/sで動作します。これは、同程度のメモリ使用量でのdense 32Bモデル(2.5 tok/s)より12倍速いです。3Bモデルの速度で35B級の知能が得られます。

32GB MacBookの「ちょうどいいところ」:

  • 総合最高: Qwen 3.5 35B-A3B Mo、35B品質で31 tok/s。これが一番です。
  • コーディング最高: Qwen 2.5 Coder 7B が11 tok/s(快適)、または Coder 14B が6 tok/s(遅いが良い)
  • 推論最高: DeepSeek R1 Distill 7B が11 tok/s、または我慢できるなら R1 Distill 32B が2.5 tok/s
  • 最小モデル最高: Qwen 3.5 4B — 29 tok/s、必要なRAMはわずか2.7 GB

32GBの壁: すべてのdense 32Bモデルは、約2.5 tok/sで、約18.6 GBを使用します。バッチ処理には使えますが、インタラクティブなチャットには向きません。MoEアーキテクチャが抜け道です。

テストした全37モデル

10モデルファミリー:Gemma 4、Gemma 3、Qwen 3.5、Qwen 3、Qwen 2.5 Coder、QwQ、DeepSeek R1 Distill、Phi-4、Mistral、Llama

仕組み

すべてのベンチマークは llama-bench を使用しており、標準化され、コンテンツに依存せず、再現可能です。固定トークン数で、純粋なトークン処理(pp)と生成(tg)の速度を測定します。カスタムプロンプトなし、主観なし。

システムは自動であなたのハードウェアを検出し、RAMに収まるモデルをダウンロードして、それらをベンチマークし、結果を標準化された形式で保存します。PRを提出すれば、あなたの結果がデータベースに反映されます。

特に探しています: M4 Pro、M4 Max、M3 Max、M2 Ultra、そしてM1のユーザーです。より多くのハードウェア設定をカバーできれば、これが全員にとってより役立つようになります。

GitHub:https://github.com/enescingoz/mac-llm-bench

どの結果や手法についても質問に喜んで答えます。

submitted by /u/evoura
[link] [comments]