Benchmarked Gemma 4 E2B: マルチターンでは2Bモデルがより大きい兄弟モデルすべてに勝利（70%）

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

新しいGemma 4 E2Bモデルのベンチマークとして、10のエンタープライズ向けタスクスイートで、より大きいGemmaの派生モデルと比較評価し、全体として高いパフォーマンスを示した。
マルチターン部門では、Gemma 4 E2Bは70%を達成した。レポートでは、これはファミリー内で最高であり、より大きい兄弟モデルすべてを上回ると主張している。
他の指標では、Gemma 4 E2Bは分類で92.9%、情報抽出F1で80.2%、多言語で83.3%、安全性で93.3%を記録し、プロンプトインジェクションへの耐性は100%だった。
先代の2B世代と比較すると、同じパラメータ規模でGemma 4 E2Bには明確な向上が見られ、マルチターン（40%→70%）、RAGグラウンディング（33.3%→50%）、ファンクションコーリング（70%→80%）などで改善が確認できる。
テストで用いられた評価者（エバリュエータ）では、ネストされた辞書出力によってファンクションコーリング関連のクラッシュが発生することもあり、小型モデルに対する実用的なツール／評価上の課題が浮き彫りになった。

Gemma 4 E2Bを、Gemma 2 2B、Gemma 3 4B、Gemma 4 E4B、Gemma 3 12Bに対して、10のエンタープライズタスクスイートでテストしました。Apple Silicon上でローカル実行。

総合順位（評価可能な9スイート）:

Gemma 4 E4B — 83.6%
Gemma 3 12B — 82.3%
Gemma 3 4B — 80.8%
Gemma 4 E2B — 80.4% ← 新規掲載
Gemma 2 2B — 77.6%

主要なE2Bの結果:

マルチターン: 70%（ファミリー内最高 — より大きい兄弟モデルをすべて上回る）
分類: 92.9%（4Bおよび12Bと同率）
情報抽出 F1: 80.2%（12Bと一致）
多言語: 83.3%
安全性: 93.3%（100%のプロンプトインジェクション耐性）

同一パラメータ数における世代間の改善（Gemma 2 2B → Gemma 4 E2B）:

マルチターン: 40% → 70%（+30）
RAGのグラウンディング: 33.3% → 50%（+17）
関数呼び出し: 70% → 80%（+10）

同一パラメータ数において8スイート中7スイートが改善しました。

関数呼び出しは最初、評価器を TypeError: unhashable type: 'dict' でクラッシュさせました — モデルが、文字列が期待される場所にネストされたdictを返したためです。今年見つけた3つ目の小規模モデル評価器の不具合です。

submitted by /u/Zealousideal-Yard328
[link] [comments]

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

半導体のレジェンド、日本に助け船ジム・ケラー氏が設計者育成を支援

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

Microsoft、より安価で高速なAI画像モデル「MAI-Image-2-Efficient」を発表

VentureBeat

Benchmarked Gemma 4 E2B: マルチターンでは2Bモデルがより大きい兄弟モデルすべてに勝利（70%）

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

半導体のレジェンド、日本に助け船ジム・ケラー氏が設計者育成を支援

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

Microsoft、より安価で高速なAI画像モデル「MAI-Image-2-Efficient」を発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

半導体のレジェンド、日本に助け船 ジム・ケラー氏が設計者育成を支援

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

Microsoft、より安価で高速なAI画像モデル「MAI-Image-2-Efficient」を発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

半導体のレジェンド、日本に助け船ジム・ケラー氏が設計者育成を支援