| 12. Gemma 4 31B(think)をローカルのQ4_K_Mで - 78.7%。 16. Gemini 3 Flash(think) - 76.5% 19. Claude Sonnet 4(think) - 74.7% 22. Claude Sonnet 4.5(no think) - 73.8% 24. Gemma 4 31B(no think)をローカルのQ4_K_Mで - 73.5%。 29. GPT-5.4(Think) - 72.8% [リンク] [コメント] |
驚きです(Gemma 4の結果)
Reddit r/LocalLLaMA / 2026/4/5
💬 オピニオンSignals & Early TrendsModels & Research
要点
- この投稿では、ローカルのQ4_K_M環境で「Gemma 4 31B(think)」を比較したとされるベンチマーク結果が共有されており、高得点として78.7%が示されています。
- Gemini 3 Flash(think)は76.5%、Claude Sonnet 4(think)は74.7%で、推論に特化したトップモデル同士が僅差で競い合っていることを示しています。
- さらに、Gemma 4(31B)の「no think」バリアントでは73.5%が示されており、推論モードを無効にすると測定可能なパフォーマンス低下が起きることを示唆しています。
- 追加のベンチマーク項目として、GPT-5.4(Think)が72.8%で挙げられており、この特定の表では先頭のスコア群より下に位置付けられています。




