世の中には「まあ、信じてくれ、このモデルはコーディングに向いてる」みたいな議論が山ほどあります。私は“雰囲気”を実データで置き換えたくなりました。つまり、どのモデルが正しいコードを書けるのか、そして実際のハードウェア上でどれくらい速いのかを、同一条件でテストして、結果を直接比較可能にすることです。作為的に選んだプロンプトはなし。主観的な印象もなし。拡張テストスイートによる 164 のコーディング問題での pass@1 だけです。
完全な結果テーブル
モデル |HumanEval+ |速度(tok/s) |VRAM
Qwen 3.6 35B-A3B (MoE) |89.6% |16.9 |20.1 GB
Qwen 2.5 Coder 32B |87.2% |2.5 |18.6 GB
Qwen 2.5 Coder 14B |86.6% |5.9 |8.5 GB
Qwen 2.5 Coder 7B |84.2% |11.3 |4.5 GB
Phi 4 14B |82.3% |5.3 |8.6 GB
Devstral Small 24B |81.7% |3.5 |13.5 GB
Gemma 3 27B |78.7% |3.0 |15.6 GB
Mistral Small 3.1 24B |75.6% |3.6 |13.5 GB
Gemma 3 12B |75.6% |5.7 |7.0 GB
Phi 4 Mini 3.8B |70.7% |19.6 |2.5 GB
Gemma 3 4B |64.6% |16.5 |2.5 GB
Mistral Nemo 12B |64.6% |6.9 |7.1 GB
Llama 3.1 8B |61.0% |10.8 |4.7 GB
Llama 3.2 3B |60.4% |24.1 |2.0 GB
Mistral 7B v0.3 |37.2% |11.5 |4.2 GB
Gemma 3 1B |34.2% |46.6 |0.9 GB
Llama 3.2 1B |32.9% |59.4 |0.9 GB
Gemma 4 31B |31.1% |5.5 |18.6 GB
Gemma 4 E4B |14.6% |36.7 |5.2 GB
Gemma 4 26B-A4B MoE |12.2% |16.2 |16.1 GB
Gemma 4 E2B |9.2% |29.2 |3.4 GB 注目すべき所見
Qwen 3.6 35B-A3B が明確な勝者です。スコアは 89.6% で、MoE アーキテクチャのため、名目上は 35B モデルであるにもかかわらず 16.9 tok/s で動きます。速度に効くのはアクティブなパラメータ数です。品質に効くのは総パラメータ数です。このモデルはその“両立”をうまく実現しています。
RAM に対するコスパ最強:Qwen 2.5 Coder 7B。 4.5 GB で 11.3 tok/s、84.2% です。RAM 8 GB があり、毎日のコーディング支援が欲しいなら、たぶんこのモデルが最適でしょう。
Gemma 4 の結果は意外で、議論する価値があります。 Gemma 4 31B は 31.1% で、Llama 3.2 1B(32.9%)より低く、さらに Gemma 3 27B(78.7%)からは大きく下回っています。Gemma 4 の MoE バリアント(26B-A4B)は 12.2% です。これらは何度も実行して確認しました。Q4_K_M の量子化が、他のものよりも Gemma 4 のアーキテクチャに強く影響している可能性があります。あるいは HumanEval+ のタスク分布が、その強みを活かしにくい可能性もあります。仮説は歓迎です。(https://www.reddit.com/r/LocalLLaMA/s/2pgedDFBYt)
Phi 4 Mini 3.8B は“伏兵”です。70.7% と 19.6 tok/s で、2.5 GB です。速くて小さいものが必要で、それでもそれなりに良いコードを書けるなら、はるかに大きい複数のモデルを上回っています。
方法論に関するメモ
- EvalPlus HumanEval+ は、標準の HumanEval よりも選ばれました。問題ごとに追加のテストケースがあるため、モデルが運で通過してしまう可能性を減らせるからです
- 各モデルは単体で評価(同時実行プロセスなし)
GitHub リポジトリ(コード+生の結果): https://github.com/enescingoz/mac-llm-bench
HuggingFace データセット: https://huggingface.co/datasets/enescingoz/humaneval-apple-silicon
次にどのモデルをテストすべきでしょうか? 次の実行に向けていくつか枠が空いていて、ぜひこのコミュニティが実際に使っているものに優先順位をつけたいと思っています。さらに、Mac をお持ちで別のハードウェア(M3、M4 Pro、M4 Max など)で自分の結果を提供したい場合も、このフレームワークは完全にオープンソースで、貢献を歓迎します。
[link] [コメント]



