Gemma 4 と Qwen 3.5 のベンチマーク比較

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この記事では、複数の評価スイートにわたる Qwen 3.5 モデルと Gemma 4 モデルの公式ベンチマーク結果を、左右に並べて比較しています。
MMLU-Pro や GPQA Diamond のようなテストでは、より大きな Qwen および Gemma のバリアントほど一般に高い性能を示し、Gemma は複数の高度な推論系および学術ベンチマークでリードしています。
LiveCodeBench v6 や Codeforces ELO のようなコーディング中心の評価では、モデルのサイズやバリアントによって結果が変動し、すべてのコーディング指標で一つの勝者がいるとは示されません。
比較には、効率面やツール利用に関する設定（例：HLE-n vs HLE-t）も含まれており、「with tools（ツールあり）」構成では性能差が特に顕著になります。
全体として、集計された表は「拮抗（neck-and-neck）」した相対的な強みの見え方として位置づけられており、読者が一貫したベンチマークを用いて異なるモデル系統とスケールの間のトレードオフを判断できるようにしています。

Qwen 3.5 と Gemma 4 の公式ベンチマークを取り、それをここで拮抗（ニア同率）する比較としてまとめました。

ベンチマーク表

ベンチマーク	Qwen 2B	Gemma E2B	Qwen 4B	Gemma E4B	Qwen 27B	Gemma 31B	Qwen 35B（MoE）	Gemma 26B（MoE）
MMLU-Pro	66.5%	60.0%	79.1%	69.4%	86.1%	85.2%	85.3%	82.6%
GPQA Diamond	51.6%	43.4%	76.2%	58.6%	85.5%	84.3%	84.2%	82.3%
LiveCodeBench v6	69.4%	44.0%	55.8%	52.0%	80.7%	80.0%	74.6%	77.1%
Codeforces ELO	N/A	633	24.1	940	1899	2150	2028	1718
TAU2-Bench	48.8%	24.5%	79.9%	42.2%	79.0%	76.9%	81.2%	68.2%
MMMLU（多言語）	63.1%	60.0%	76.1%	69.4%	85.9%	85.2%	85.2%	86.3%
HLE-n（ツールなし）	N/A	N/A	N/A	N/A	24.3%	19.5%	22.4%	8.7%
HLE-t（ツールあり）	N/A	N/A	N/A	N/A	48.5%	26.5%	47.4%	17.2%
AIME 2026	N/A	N/A	N/A	42.5%	N/A	89.2%	N/A	88.3%
MMMU Pro（Vision）	N/A	N/A	N/A	N/A	75.0%	76.9%	75.1%	73.8%
MATH-Vision	N/A	N/A	N/A	N/A	86.0%	85.6%	83.9%	82.4%

（注：空欄またはN/Aは、当該サイズについて公式のテストデータが提供されていないことを意味します。）

両プロバイダーのモデルカードから引用しています。

出典: https://qwen.ai/blog?id=qwen3.5 https://huggingface.co/Qwen/Qwen3.5-27B https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

投稿者 /u/Fuzzy_Philosophy_606
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/4Dailyインサイトを見る →

Claude Codeのソース漏えい、OpenAIは動画生成を撤退、Geminiは音楽生成を追加、LLMは推論時に学習する

The Batch

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

日経XTECH

AIエージェント時代に台頭する「FDE」、SHIFTと富士通が挑む脱人月

日経XTECH

AIエージェント時代に台頭する「FDE」、SHIFTと富士通が挑む脱人月

日経XTECH

中国AI企業が「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

Gemma 4 と Qwen 3.5 のベンチマーク比較

要点

ベンチマーク表

💡 この記事が使われたインサイト

関連記事

Claude Codeのソース漏えい、OpenAIは動画生成を撤退、Geminiは音楽生成を追加、LLMは推論時に学習する

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

AIエージェント時代に台頭する「FDE」、SHIFTと富士通が挑む脱人月

AIエージェント時代に台頭する「FDE」、SHIFTと富士通が挑む脱人月

中国AI企業が「ただ乗り蒸留」か米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

ベンチマーク表

💡 この記事が使われたインサイト

関連記事

Claude Codeのソース漏えい、OpenAIは動画生成を撤退、Geminiは音楽生成を追加、LLMは推論時に学習する

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

AIエージェント時代に台頭する「FDE」、SHIFTと富士通が挑む脱人月

AIエージェント時代に台頭する「FDE」、SHIFTと富士通が挑む脱人月

中国AI企業が「ただ乗り蒸留」か 米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が「ただ乗り蒸留」か米社が主張、安全保障リスクも