人工分析がインテリジェンス・インデックスを生成するのを待っていたけど、結果は良さそうです。Gemma 26b a4b は、Mac Studio M1 Ultra 上で Qwen3.5 35b a3b と同じ速度です(~1000pp、~60tg、コンテキスト長 20k、llama.cpp)。そして短いテストでは、Qwen よりずっと、ずっと良い挙動をしました。比べものになりません。Gemma の思考過程は簡潔で、役に立ち、筋が通っています。一方で Qwen はかなりの内面的な自己否定(inner-gaslighting)をしていて、さらにデフォルト設定のままだとループもよく起こします。視覚理解はとても良く、多言語対応も良さそうです。どちらも Q4_K_XL でテストしました。
mlx-vlm が Gemma でプロンプトキャッシュを適切に扱えているのか気になります(Qwen 3.5 では動きません)。
ただ、KV キャッシュは巨大なものになりそうなのが残念です。KV を減らすための工夫を何も実装していないので。とはいえ、TurboQuant が近いうちにそれを助けてくれることを期待しています。
検閲はクソみたいになると思います。e4b はあらゆる種類の医療アドバイスを拒否するのが大好きだと見ました。うまいプロンプトならそれを軽減できるかもしれません。「heretic(異端者)」や「abliterated(抹消された)」版では、多くの場合で性能が損なわれるように見えるからです。
今回は人間が手書きしたので、フォーマットはありません。
[link] [comments]




