Gemma-4 E4Bモデルの視覚性能は意外なほど低いようだ

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • ユーザーは、ツールなしでの単一ターン画像理解問題からなる約100タスクのテストスイートにおいて、Gemma-4 E4Bのビジョンモデルが意外なほど低い性能を示すと報告している。
  • レポーターの検証では、同じキャリブレーション済み評価においてGemma-4-E4bは0.27で、Qwen3.5-4bの0.5に比べて視覚能力に大きな差があることが示されている。
  • ユーザーは、Gemma-4のドキュメントに記載されたimage-min-tokens設定を行ったうえで、llama.cppとHugging Faceのtransformersライブラリの両方で、量子化モデル(Q8)を試したが、低い性能は継続している。
  • モデルが期待される構造化フォーマットで回答を出せない例が挙げられており、Qwen3.5-4bは成功している。
  • 投稿では他の人にも確認を求めており、結果がモデルの限界を反映しているのか、それとも評価や設定の問題によるものなのかについて不確実性が示唆されている。

E4Bモデルは私のテストでは非常に成績が悪く、誰もそれについて話していないようなので、思い切って書き込みました。qwen3.5-4bですら下回るレベルでうまくいっていません。どなたか確認(?)してもらえますか。

私のテストスイートには、だいたい100件の視覚関連タスクがあります。ツールなしのシングルターンで、入力は画像とプロンプトのみですが、答えは明確です(ただし、全部がVQAというわけではありません)。これらのタスクの多くは、何らかのエージェント的ユースケースより上流のものです。

イメージとしては、入力がスクリーンショットで、その中から特定のテキスト情報を抜き出す必要があるテストもあれば、モデルが何らかの推論を行う必要がある画像もあります(例えば、旅行画像での地理当て、関連するスーパーマーケットの売り場棚の画像(価格タグがはっきり見えているもの)をもとに、買い物リストの合計金額を計算する、といったものです)。

最初のラウンドは、unsloth と bartowski's の Q8 quant を llama cpp で(gemma-4 のドキュメントに従い b8680 で、image-min-tokens を 1120 に設定)実施しましたが、あまりにもひどかったので、transformersライブラリを使うように切り替えました。

テスト結果は以下の通りです:

Qwen3.5-4b: 0.5(4bモデルのスコアが0.5になるようにテストは調整されています)Gemma-4-E4b: 0.27

注:テストの評価は部分点を与えるように設計されているので、例えばHFのgemma 4公式ブログ投稿にあるこの画像では:seagullの場合、許容される解答は2要素のタプル:(venice, italy)です。E4BのQ8はまったく答えません。transformersライブラリを使うと(rome, italy)になります。Qwen3.5-4bはこれを正しく処理します(qwen3.5-9b や Glm 4.6v flash のような9bモデルでも同様です)。

投稿者 /u/specji
[link] [コメント]