MacBook Air M5（32GB）で37のLLMをベンチマークしてみた — 完全な結果 + 自分のMacをベンチマークするためのオープンソースツール

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

著者は、MacBook Air M5（32GB、10 CPU/10 GPU）上で、llama-benchを使いQ4_K_M量子化により37種類の異なるLLMをベンチマークし、完全な性能テーブルを公開している。
結果は生成速度（例：上位は小型のQwen/Llama/Gemmaモデルや、Qwen 3.5 35B-A3B MoEのような大型MoEバリアントを含む）ごとに整理され、トークンのスループットとともにRAM使用量も報告されている。
このベンチマークは、Apple Silicon上での実機内性能に焦点を当てており、ハードウェア固有の比較をより検証・再現しやすくすることを目的としている。
記事ではさらに、読者が自分のMac環境をベンチマークできるオープンソースのベンチマークツール／ワークフローも紹介し、コミュニティによるデータベースの拡大に貢献できるようにしている。
総じて、この記事はMacのメモリ／スループット制約に収まるLLMを選ぶための実践的な指針を提供し、コミュニティ主導で比較可能な測定を可能にする。

そこで私は、私のM5 Air（32GB、CPU/ GPU各10）上で、さまざまなモデルが実際にどれくらいの速さで動くのか気になりました。1〜2個だけ試すのではなく、10種類の異なるファミリーにまたがる37モデルを調べ、Q4_K_M量子化を使って llama-bench で全て記録しました。

目的：あらゆる Appleシリコンのチップ（M1 〜 M5、ベース/Pro/Max/Ultra）をカバーする コミュニティのベンチマークデータベース を構築し、誰もが自分の正確なハードウェアの性能を調べられるようにすることです。

モデル	パラメータ	tg128（tok/s）	pp256（tok/s）	RAM
Qwen 3 0.6B	0.6B	91.9	2013	0.6 GB
Llama 3.2 1B	1B	59.4	1377	0.9 GB
Gemma 3 1B	1B	46.6	1431	0.9 GB
Qwen 3 1.7B	1.7B	37.3	774	1.3 GB
Qwen 3.5 35B-A3B MoE	35B	31.3	573	20.7 GB
Qwen 3.5 4B	4B	29.4	631	2.7 GB
Gemma 4 E2B	2B	29.2	653	3.4 GB
Llama 3.2 3B	3B	24.1	440	2.0 GB
Qwen 3 30B-A3B MoE	30B	23.1	283	17.5 GB
Phi 4 Mini 3.8B	3.8B	19.6	385	2.5 GB
Phi 4 Mini Reasoning 3.8B	3.8B	19.4	393	2.5 GB
Gemma 4 26B-A4B MoE	26B	16.2	269	16.1 GB
Qwen 3.5 9B	9B	13.2	226	5.5 GB
Mistral 7B v0.3	7B	11.5	183	4.2 GB
DeepSeek R1 Distill 7B	7B	11.4	191	4.5 GB

モデル	パラメータ	tg128（tok/s）	RAM
Mistral Small 3.1 24B	24B	3.6	13.5 GB
Devstral Small 24B	24B	3.5	13.5 GB
Gemma 3 27B	27B	3.0	15.6 GB
DeepSeek R1 Distill 32B	32B	2.6	18.7 GB
QwQ 32B	32B	2.6	18.7 GB
Qwen 3 32B	32B	2.5	18.6 GB
Qwen 2.5 Coder 32B	32B	2.5	18.7 GB
Gemma 4 31B	31B	2.4	18.6 GB

MoEモデルは、ローカル推論にとってゲームチェンジャーです。 Qwen 3.5 35B-A3B MoE は31 tok/sで動作します。これは、同程度のメモリ使用量でのdense 32Bモデル（2.5 tok/s）より12倍速いです。3Bモデルの速度で35B級の知能が得られます。

32GB MacBookの「ちょうどいいところ」：

32GBの壁： すべてのdense 32Bモデルは、約2.5 tok/sで、約18.6 GBを使用します。バッチ処理には使えますが、インタラクティブなチャットには向きません。MoEアーキテクチャが抜け道です。

10モデルファミリー：Gemma 4、Gemma 3、Qwen 3.5、Qwen 3、Qwen 2.5 Coder、QwQ、DeepSeek R1 Distill、Phi-4、Mistral、Llama

すべてのベンチマークは llama-bench を使用しており、標準化され、コンテンツに依存せず、再現可能です。固定トークン数で、純粋なトークン処理（pp）と生成（tg）の速度を測定します。カスタムプロンプトなし、主観なし。

システムは自動であなたのハードウェアを検出し、RAMに収まるモデルをダウンロードして、それらをベンチマークし、結果を標準化された形式で保存します。PRを提出すれば、あなたの結果がデータベースに反映されます。

特に探しています： M4 Pro、M4 Max、M3 Max、M2 Ultra、そしてM1のユーザーです。より多くのハードウェア設定をカバーできれば、これが全員にとってより役立つようになります。

どの結果や手法についても質問に喜んで答えます。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

AI Business

AI Business

The Batch

日経XTECH

日経XTECH