M5 Max MacBook Pro 128GB上でのGemma量子化比較(もちろん主観ですが、さまざまなカテゴリで):
gemma 4 leaderboard
驚いた点:Gemma 4 31B 4bit が 8bit より高いスコアでした。91.3% 対 88.4%。なぜかは分かりません。テンプレートの可能性、量子化の可能性、あるいは私のプロンプトの可能性もあります。でも、実行のたびに一貫していました。
精度 vs. 1秒あたりのトークン数
カテゴリ精度
"Gemma 4 26B-A4B はより高いスコアになるはずでしたが、2つの質問で回帰ループに入ってしまい、二度と戻ってきませんでした。すべての量子化(quants)およびフル精度(bf16)でも同様でした:
回帰ループによって一部のテストに失敗する24B-A4B
私は「16,384」の最大応答トークン数を設定しましたが、ループしている間にその上限に到達しました:
$ grep WARN ~/.cupel/cupel.log 2026-04-13 19:00:25 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-4bit elapsed=215.0s tokens=16384 2026-04-13 19:04:52 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-4bit elapsed=214.5s tokens=16384 2026-04-13 19:21:42 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-8bit elapsed=260.1s tokens=16384 2026-04-13 19:26:02 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-8bit elapsed=260.5s tokens=16384 2026-04-13 19:45:52 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-bf16 elapsed=349.2s tokens=16384 2026-04-13 19:51:40 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-bf16 elapsed=348.0s tokens=16384
「Gemma 4 31B 4 bit」は本当に良いです。少しだけ遅めです(21トークン/秒)。ただし、先ほども述べた通り、私にとっては「Gemma 4 31B 8 bit」よりもずっと良い出来です。とはいえ、Gemma 4 31B bf16 のフル精度に対して4bitがどこから負け始めるのかを見るには、もう少し良いテストが必要かもしれません。というのも、現時点では彼らは同等だからです。
私は昨日、それらすべてをこれらのテンプレート更新がHugging Faceによって行われる前にテストしましたが、わずかに悪い結果でした。上の結果は、これらのテンプレート更新を含めて再テストしたものなので、更新はちゃんと効いています。
「Gemma 4 31B 4 bit」を、素早い応答を必要としない一晩かけて行う複雑なタスクに使うのは理にかなっていると思います。21トークン/秒なら、そうしたタスクをいくつか片付けるのに十分な速さかもしれません。しかし「日中」の作業だと、MacBook上では少し遅いかもしれませんし、Qwen 122B A10B 4 bit はまだローカル界の王様です。M5 Ultraが出て、そこから数か月待てば(笑)、状況が変わるかもしれません。
context: これは、 redditの議論で寄せられたフィードバックをきっかけにしています。そこで私は フィードバックに対処するために取り組む ための リスト を作成しました
submitted by