驚きです(Gemma 4の結果)

Reddit r/LocalLLaMA / 2026/4/5

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • この投稿では、ローカルのQ4_K_M環境で「Gemma 4 31B(think)」を比較したとされるベンチマーク結果が共有されており、高得点として78.7%が示されています。
  • Gemini 3 Flash(think)は76.5%、Claude Sonnet 4(think)は74.7%で、推論に特化したトップモデル同士が僅差で競い合っていることを示しています。
  • さらに、Gemma 4(31B)の「no think」バリアントでは73.5%が示されており、推論モードを無効にすると測定可能なパフォーマンス低下が起きることを示唆しています。
  • 追加のベンチマーク項目として、GPT-5.4(Think)が72.8%で挙げられており、この特定の表では先頭のスコア群より下に位置付けられています。
驚きました(Gemma 4の結果)

https://preview.redd.it/xv1p9zp1tdtg1.png?width=1210&format=png&auto=webp&s=f4cb3b32fd977b3e6d487915de9f985329060342

https://dubesor.de/benchtable

12. Gemma 4 31B(think)をローカルのQ4_K_Mで - 78.7%。

16. Gemini 3 Flash(think) - 76.5%

19. Claude Sonnet 4(think) - 74.7%

22. Claude Sonnet 4.5(no think) - 73.8%

24. Gemma 4 31B(no think)をローカルのQ4_K_Mで - 73.5%。

29. GPT-5.4(Think) - 72.8%

投稿者 /u/Potential-Gold5298
[リンク] [コメント]