Gemma 4 と Qwen 3.5 のベンチマーク比較

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この記事では、複数の評価スイートにわたる Qwen 3.5 モデルと Gemma 4 モデルの公式ベンチマーク結果を、左右に並べて比較しています。
  • MMLU-Pro や GPQA Diamond のようなテストでは、より大きな Qwen および Gemma のバリアントほど一般に高い性能を示し、Gemma は複数の高度な推論系および学術ベンチマークでリードしています。
  • LiveCodeBench v6 や Codeforces ELO のようなコーディング中心の評価では、モデルのサイズやバリアントによって結果が変動し、すべてのコーディング指標で一つの勝者がいるとは示されません。
  • 比較には、効率面やツール利用に関する設定(例:HLE-n vs HLE-t)も含まれており、「with tools(ツールあり)」構成では性能差が特に顕著になります。
  • 全体として、集計された表は「拮抗(neck-and-neck)」した相対的な強みの見え方として位置づけられており、読者が一貫したベンチマークを用いて異なるモデル系統とスケールの間のトレードオフを判断できるようにしています。

Qwen 3.5 と Gemma 4 の公式ベンチマークを取り、それをここで拮抗(ニア同率)する比較としてまとめました。

ベンチマーク表

ベンチマーク Qwen 2B Gemma E2B Qwen 4B Gemma E4B Qwen 27B Gemma 31B Qwen 35B(MoE) Gemma 26B(MoE)
MMLU-Pro 66.5% 60.0% 79.1% 69.4% 86.1% 85.2% 85.3% 82.6%
GPQA Diamond 51.6% 43.4% 76.2% 58.6% 85.5% 84.3% 84.2% 82.3%
LiveCodeBench v6 69.4% 44.0% 55.8% 52.0% 80.7% 80.0% 74.6% 77.1%
Codeforces ELO N/A 633 24.1 940 1899 2150 2028 1718
TAU2-Bench 48.8% 24.5% 79.9% 42.2% 79.0% 76.9% 81.2% 68.2%
MMMLU(多言語) 63.1% 60.0% 76.1% 69.4% 85.9% 85.2% 85.2% 86.3%
HLE-n(ツールなし) N/A N/A N/A N/A 24.3% 19.5% 22.4% 8.7%
HLE-t(ツールあり) N/A N/A N/A N/A 48.5% 26.5% 47.4% 17.2%
AIME 2026 N/A N/A N/A 42.5% N/A 89.2% N/A 88.3%
MMMU Pro(Vision) N/A N/A N/A N/A 75.0% 76.9% 75.1% 73.8%
MATH-Vision N/A N/A N/A N/A 86.0% 85.6% 83.9% 82.4%

(注:空欄またはN/Aは、当該サイズについて公式のテストデータが提供されていないことを意味します。)

両プロバイダーのモデルカードから引用しています。

出典: https://qwen.ai/blog?id=qwen3.5 https://huggingface.co/Qwen/Qwen3.5-27B https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

投稿者 /u/Fuzzy_Philosophy_606
[link] [comments]