E4Bモデルは私のテストでは非常に成績が悪く、誰もそれについて話していないようなので、思い切って書き込みました。qwen3.5-4bですら下回るレベルでうまくいっていません。どなたか確認(?)してもらえますか。
私のテストスイートには、だいたい100件の視覚関連タスクがあります。ツールなしのシングルターンで、入力は画像とプロンプトのみですが、答えは明確です(ただし、全部がVQAというわけではありません)。これらのタスクの多くは、何らかのエージェント的ユースケースより上流のものです。
イメージとしては、入力がスクリーンショットで、その中から特定のテキスト情報を抜き出す必要があるテストもあれば、モデルが何らかの推論を行う必要がある画像もあります(例えば、旅行画像での地理当て、関連するスーパーマーケットの売り場棚の画像(価格タグがはっきり見えているもの)をもとに、買い物リストの合計金額を計算する、といったものです)。
最初のラウンドは、unsloth と bartowski's の Q8 quant を llama cpp で(gemma-4 のドキュメントに従い b8680 で、image-min-tokens を 1120 に設定)実施しましたが、あまりにもひどかったので、transformersライブラリを使うように切り替えました。
テスト結果は以下の通りです:
Qwen3.5-4b: 0.5(4bモデルのスコアが0.5になるようにテストは調整されています)Gemma-4-E4b: 0.27
注:テストの評価は部分点を与えるように設計されているので、例えばHFのgemma 4公式ブログ投稿にあるこの画像では:seagullの場合、許容される解答は2要素のタプル:(venice, italy)です。E4BのQ8はまったく答えません。transformersライブラリを使うと(rome, italy)になります。Qwen3.5-4bはこれを正しく処理します(qwen3.5-9b や Glm 4.6v flash のような9bモデルでも同様です)。
[link] [コメント]




