MacBook Air M5で21個のローカルLLMをコード品質と速度の両面でベンチマークしてみた

Reddit r/LocalLLaMA / 2026/4/21

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • MacBook Air M5上で21個のローカルLLMを同一条件で比較し、コードの正確性(EvalPlus HumanEval+の164問でpass@1)と推論速度(tok/s)を両方測定した。
  • コード品質で最上位はQwen 3.6 35B-A3B(MoE)の89.6%で、速度も16.9 tok/sと良好であり、「実際の速度は活性パラメータ数が効く」という傾向が確認された。
  • 実用面の「RAM効率(コスパ)」ではQwen 2.5 Coder 7Bが好結果で、約4.5GB VRAMで84.2%の精度を11.3 tok/sで実現し、8GB級環境の毎日使いのコーディング支援に向く可能性が示された。
  • Gemma 4の結果は意外に低く、特にMoE系でも伸び悩んだため、Q4_K_M量子化やHumanEval+の問題分布がGemma 4の強みを不利にしている可能性が示唆された。
  • Phi 4 Mini(3.8B)は「スリーパー候補」として、わずか2.5GBで70.7%かつ19.6 tok/sを達成し、速度とサイズのトレードオフではより大きい複数モデルを上回った。

世の中には「まあ、信じてくれ、このモデルはコーディングに向いてる」みたいな議論が山ほどあります。私は“雰囲気”を実データで置き換えたくなりました。つまり、どのモデルが正しいコードを書けるのか、そして実際のハードウェア上でどれくらい速いのかを、同一条件でテストして、結果を直接比較可能にすることです。作為的に選んだプロンプトはなし。主観的な印象もなし。拡張テストスイートによる 164 のコーディング問題での pass@1 だけです。

完全な結果テーブル

モデル |HumanEval+ |速度(tok/s) |VRAM

Qwen 3.6 35B-A3B (MoE) |89.6% |16.9 |20.1 GB

Qwen 2.5 Coder 32B |87.2% |2.5 |18.6 GB

Qwen 2.5 Coder 14B |86.6% |5.9 |8.5 GB

Qwen 2.5 Coder 7B |84.2% |11.3 |4.5 GB

Phi 4 14B |82.3% |5.3 |8.6 GB

Devstral Small 24B |81.7% |3.5 |13.5 GB

Gemma 3 27B |78.7% |3.0 |15.6 GB

Mistral Small 3.1 24B |75.6% |3.6 |13.5 GB

Gemma 3 12B |75.6% |5.7 |7.0 GB

Phi 4 Mini 3.8B |70.7% |19.6 |2.5 GB

Gemma 3 4B |64.6% |16.5 |2.5 GB

Mistral Nemo 12B |64.6% |6.9 |7.1 GB

Llama 3.1 8B |61.0% |10.8 |4.7 GB

Llama 3.2 3B |60.4% |24.1 |2.0 GB

Mistral 7B v0.3 |37.2% |11.5 |4.2 GB

Gemma 3 1B |34.2% |46.6 |0.9 GB

Llama 3.2 1B |32.9% |59.4 |0.9 GB

Gemma 4 31B |31.1% |5.5 |18.6 GB

Gemma 4 E4B |14.6% |36.7 |5.2 GB

Gemma 4 26B-A4B MoE |12.2% |16.2 |16.1 GB

Gemma 4 E2B |9.2% |29.2 |3.4 GB 注目すべき所見

Qwen 3.6 35B-A3B が明確な勝者です。スコアは 89.6% で、MoE アーキテクチャのため、名目上は 35B モデルであるにもかかわらず 16.9 tok/s で動きます。速度に効くのはアクティブなパラメータ数です。品質に効くのは総パラメータ数です。このモデルはその“両立”をうまく実現しています。

RAM に対するコスパ最強:Qwen 2.5 Coder 7B。 4.5 GB で 11.3 tok/s、84.2% です。RAM 8 GB があり、毎日のコーディング支援が欲しいなら、たぶんこのモデルが最適でしょう。

Gemma 4 の結果は意外で、議論する価値があります。 Gemma 4 31B は 31.1% で、Llama 3.2 1B(32.9%)より低く、さらに Gemma 3 27B(78.7%)からは大きく下回っています。Gemma 4 の MoE バリアント(26B-A4B)は 12.2% です。これらは何度も実行して確認しました。Q4_K_M の量子化が、他のものよりも Gemma 4 のアーキテクチャに強く影響している可能性があります。あるいは HumanEval+ のタスク分布が、その強みを活かしにくい可能性もあります。仮説は歓迎です。(https://www.reddit.com/r/LocalLLaMA/s/2pgedDFBYt)

Phi 4 Mini 3.8B は“伏兵”です。70.7% と 19.6 tok/s で、2.5 GB です。速くて小さいものが必要で、それでもそれなりに良いコードを書けるなら、はるかに大きい複数のモデルを上回っています。

方法論に関するメモ

  • EvalPlus HumanEval+ は、標準の HumanEval よりも選ばれました。問題ごとに追加のテストケースがあるため、モデルが運で通過してしまう可能性を減らせるからです
  • 各モデルは単体で評価(同時実行プロセスなし)

完全版の書き起こし: https://medium.com/@enescingoz/i-benchmarked-21-coding-models-on-a-macbook-air-heres-which-ones-actually-write-good-code-1a59441dee14

GitHub リポジトリ(コード+生の結果): https://github.com/enescingoz/mac-llm-bench

HuggingFace データセット: https://huggingface.co/datasets/enescingoz/humaneval-apple-silicon

次にどのモデルをテストすべきでしょうか? 次の実行に向けていくつか枠が空いていて、ぜひこのコミュニティが実際に使っているものに優先順位をつけたいと思っています。さらに、Mac をお持ちで別のハードウェア(M3、M4 Pro、M4 Max など)で自分の結果を提供したい場合も、このフレームワークは完全にオープンソースで、貢献を歓迎します。

による投稿 /u/evoura
[link] [コメント]