Gemma 4は良い

Reddit r/LocalLLaMA / 2026/4/3

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Redditのユーザーが、Gemma 4（特にGemma 26B a4b）がMac Studio M1 Ultra上で非常に良好に動作し、速度面ではQwen 3.5 35B a3bと同等でありながら、短いテストではそれを明確に上回ったと報告しています。
ユーザーは、GemmaがQwenよりも簡潔で首尾一貫した推論（いわゆる「chain of thoughts」）を生成し、ループが少なく、デフォルト設定での挙動が改善していると主張しています。
彼らは、両モデルにQ4_K_XL量子化を使用した上でのテスト結果にもとづき、Gemmaの視覚理解と多言語能力が強いと述べています。
投稿では実装上の懸念点も挙げています。mlx-vlmにおけるプロンプトキャッシュがGemmaでは機能しない可能性があり、すでにQwenでも問題があるということです。また、GemmaのKVキャッシュが、メモリ削減のための工夫が欠けているために異常に大きい可能性があり、TurboQuantによる改善が期待されています。
さらに、検閲（censorship）に関する潜在的な問題にも警告しています。小型のGemma系バリアントでは医療アドバイスを拒否する場合があること、また別のプロンプトの出し方によって性能が変わり得ることが述べられています。

人工分析がインテリジェンス・インデックスを生成するのを待っていたけど、結果は良さそうです。Gemma 26b a4b は、Mac Studio M1 Ultra 上で Qwen3.5 35b a3b と同じ速度です（~1000pp、~60tg、コンテキスト長 20k、llama.cpp）。そして短いテストでは、Qwen よりずっと、ずっと良い挙動をしました。比べものになりません。Gemma の思考過程は簡潔で、役に立ち、筋が通っています。一方で Qwen はかなりの内面的な自己否定（inner-gaslighting）をしていて、さらにデフォルト設定のままだとループもよく起こします。視覚理解はとても良く、多言語対応も良さそうです。どちらも Q4_K_XL でテストしました。

mlx-vlm が Gemma でプロンプトキャッシュを適切に扱えているのか気になります（Qwen 3.5 では動きません）。

ただ、KV キャッシュは巨大なものになりそうなのが残念です。KV を減らすための工夫を何も実装していないので。とはいえ、TurboQuant が近いうちにそれを助けてくれることを期待しています。

検閲はクソみたいになると思います。e4b はあらゆる種類の医療アドバイスを拒否するのが大好きだと見ました。うまいプロンプトならそれを軽減できるかもしれません。「heretic（異端者）」や「abliterated（抹消された）」版では、多くの場合で性能が損なわれるように見えるからです。

今回は人間が手書きしたので、フォーマットはありません。

submitted by /u/One_Key_8127
[link] [comments]