Benchmarked Gemma 4 E2B: マルチターンでは2Bモデルがより大きい兄弟モデルすべてに勝利(70%)

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 新しいGemma 4 E2Bモデルのベンチマークとして、10のエンタープライズ向けタスクスイートで、より大きいGemmaの派生モデルと比較評価し、全体として高いパフォーマンスを示した。
  • マルチターン部門では、Gemma 4 E2Bは70%を達成した。レポートでは、これはファミリー内で最高であり、より大きい兄弟モデルすべてを上回ると主張している。
  • 他の指標では、Gemma 4 E2Bは分類で92.9%、情報抽出F1で80.2%、多言語で83.3%、安全性で93.3%を記録し、プロンプトインジェクションへの耐性は100%だった。
  • 先代の2B世代と比較すると、同じパラメータ規模でGemma 4 E2Bには明確な向上が見られ、マルチターン(40%→70%)、RAGグラウンディング(33.3%→50%)、ファンクションコーリング(70%→80%)などで改善が確認できる。
  • テストで用いられた評価者(エバリュエータ)では、ネストされた辞書出力によってファンクションコーリング関連のクラッシュが発生することもあり、小型モデルに対する実用的なツール/評価上の課題が浮き彫りになった。

Gemma 4 E2Bを、Gemma 2 2B、Gemma 3 4B、Gemma 4 E4B、Gemma 3 12Bに対して、10のエンタープライズタスクスイートでテストしました。Apple Silicon上でローカル実行。

総合順位(評価可能な9スイート):

  • Gemma 4 E4B — 83.6%
  • Gemma 3 12B — 82.3%
  • Gemma 3 4B — 80.8%
  • Gemma 4 E2B — 80.4% ← 新規掲載
  • Gemma 2 2B — 77.6%

主要なE2Bの結果:

  • マルチターン: 70%(ファミリー内最高 — より大きい兄弟モデルをすべて上回る)
  • 分類: 92.9%(4Bおよび12Bと同率)
  • 情報抽出 F1: 80.2%(12Bと一致)
  • 多言語: 83.3%
  • 安全性: 93.3%(100%のプロンプトインジェクション耐性)

同一パラメータ数における世代間の改善(Gemma 2 2B → Gemma 4 E2B):

  • マルチターン: 40% → 70%(+30)
  • RAGのグラウンディング: 33.3% → 50%(+17)
  • 関数呼び出し: 70% → 80%(+10)

同一パラメータ数において8スイート中7スイートが改善しました。

関数呼び出しは最初、評価器を TypeError: unhashable type: 'dict' でクラッシュさせました — モデルが、文字列が期待される場所にネストされたdictを返したためです。今年見つけた3つ目の小規模モデル評価器の不具合です。

submitted by /u/Zealousideal-Yard328
[link] [comments]