Gemma 4 31B — 4bitで十分

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本記事は、M5 Max 128GBのMacBook Pro上でGemma 4 31Bを4-bitに量子化した主観的ベンチマークを報告し、複数カテゴリにおいて8-bitおよびフル精度(bf16)と比較している。
  • 著者のテストでは、Gemma 4 31Bの4-bit版が8-bit版より高得点(91.3% vs 88.4%)だったが、著者は正確な要因はテンプレート/プロンプト/量子化の影響である可能性があると述べている。
  • 観測された重要なトレードオフは速度であり、31Bの4-bitモデルは約21 tokens/secondで動作する一方、著者にとっては31B 8-bitよりも良い結果をもたらした。
  • 小型のGemma 4 26B-A4Bモデルでは、いくつかの質問で「回帰ループ」のような失敗ケースが発生し、応答が最大トークン(16,384)で打ち切られてモデルが回復できない状況に遭遇した。
  • 総括すると、4-bitは高い品質に十分かもしれないが、著者は4-bitがフル精度に対してどこで性能を落とし始めるのかを特定するために、より厳密なテストが必要だとしている。
Gemma 4 31B — 4bit is all you need

M5 Max MacBook Pro 128GB上でのGemma量子化比較(もちろん主観ですが、さまざまなカテゴリで):

gemma 4 leaderboard

驚いた点:Gemma 4 31B 4bit8bit より高いスコアでした。91.3% 対 88.4%。なぜかは分かりません。テンプレートの可能性、量子化の可能性、あるいは私のプロンプトの可能性もあります。でも、実行のたびに一貫していました。

精度 vs. 1秒あたりのトークン数

カテゴリ精度

"Gemma 4 26B-A4B はより高いスコアになるはずでしたが、2つの質問で回帰ループに入ってしまい、二度と戻ってきませんでした。すべての量子化(quants)およびフル精度(bf16)でも同様でした:

回帰ループによって一部のテストに失敗する24B-A4B

私は「16,384」の最大応答トークン数を設定しましたが、ループしている間にその上限に到達しました:

$ grep WARN ~/.cupel/cupel.log 2026-04-13 19:00:25 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-4bit elapsed=215.0s tokens=16384 2026-04-13 19:04:52 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-4bit elapsed=214.5s tokens=16384 2026-04-13 19:21:42 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-8bit elapsed=260.1s tokens=16384 2026-04-13 19:26:02 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-8bit elapsed=260.5s tokens=16384 2026-04-13 19:45:52 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-bf16 elapsed=349.2s tokens=16384 2026-04-13 19:51:40 WARNING llm response truncated (hit max_tokens=16384) model=gemma-4-26b-a4b-it-bf16 elapsed=348.0s tokens=16384 

Gemma 4 31B 4 bit」は本当に良いです。少しだけ遅めです(21トークン/秒)。ただし、先ほども述べた通り、私にとっては「Gemma 4 31B 8 bit」よりもずっと良い出来です。とはいえ、Gemma 4 31B bf16 のフル精度に対して4bitがどこから負け始めるのかを見るには、もう少し良いテストが必要かもしれません。というのも、現時点では彼らは同等だからです。

私は昨日、それらすべてをこれらのテンプレート更新がHugging Faceによって行われる前にテストしましたが、わずかに悪い結果でした。上の結果は、これらのテンプレート更新を含めて再テストしたものなので、更新はちゃんと効いています。

Gemma 4 31B 4 bit」を、素早い応答を必要としない一晩かけて行う複雑なタスクに使うのは理にかなっていると思います。21トークン/秒なら、そうしたタスクをいくつか片付けるのに十分な速さかもしれません。しかし「日中」の作業だと、MacBook上では少し遅いかもしれませんし、Qwen 122B A10B 4 bit はまだローカル界の王様です。M5 Ultraが出て、そこから数か月待てば(笑)、状況が変わるかもしれません。

context: これは、 redditの議論で寄せられたフィードバックをきっかけにしています。そこで私は フィードバックに対処するために取り組む ための リスト を作成しました

submitted by /u/tolitius
[link] [comments]