Gemma 4 E2Bを、Gemma 2 2B、Gemma 3 4B、Gemma 4 E4B、Gemma 3 12Bに対して、10のエンタープライズタスクスイートでテストしました。Apple Silicon上でローカル実行。
総合順位(評価可能な9スイート):
- Gemma 4 E4B — 83.6%
- Gemma 3 12B — 82.3%
- Gemma 3 4B — 80.8%
- Gemma 4 E2B — 80.4% ← 新規掲載
- Gemma 2 2B — 77.6%
主要なE2Bの結果:
- マルチターン: 70%(ファミリー内最高 — より大きい兄弟モデルをすべて上回る)
- 分類: 92.9%(4Bおよび12Bと同率)
- 情報抽出 F1: 80.2%(12Bと一致)
- 多言語: 83.3%
- 安全性: 93.3%(100%のプロンプトインジェクション耐性)
同一パラメータ数における世代間の改善(Gemma 2 2B → Gemma 4 E2B):
- マルチターン: 40% → 70%(+30)
- RAGのグラウンディング: 33.3% → 50%(+17)
- 関数呼び出し: 70% → 80%(+10)
同一パラメータ数において8スイート中7スイートが改善しました。
関数呼び出しは最初、評価器を TypeError: unhashable type: 'dict' でクラッシュさせました — モデルが、文字列が期待される場所にネストされたdictを返したためです。今年見つけた3つ目の小規模モデル評価器の不具合です。
[link] [comments]



