私は26B A4BのMoEモデルは16 GB向けに優れていると思います。多くの量子化を試しましたが、ビジョンを維持したい場合、現時点で最適なのはこれだと思います:
https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF/blob/main/gemma-4-26B-A4B-it-UD-IQ4_XS.gguf
(bartowskiのバリアントも試しましたが、unslothはサイズに対する推論がより良いです)
ただし、最高の性能を得るにはいくつかパラメータ調整が必要で、特にコーディングでは:
--temp 0.3 --top-p 0.9 --min-p 0.1 --top-k 20
tempとtop-kを低めに保ち、min-pを少し高めにすると、非常に良い結果になります。これまで問題はなく、aistudioでホストされているモデルにかなり近い性能です。
ビジョンではmmproj-F16.ggufを使ってください。FP32ではまったく恩恵がなく、そして非常に重要なのは:
--image-min-tokens 300 --image-max-tokens 1024
画像は最低300トークンを使ってください。ビジョン性能が大きく向上します。
この設定だと、np -1でKV fp16に30K+トークンを収められます。もっと必要なら、KV Q8にするよりビジョンを落とした方がよいと思います。かなり悪化します。
この設定で、このモデルは16 GB VRAMに対して絶対的な怪物だと感じています。
最新のllama.cppビルドを使うようにしてください。もし他のUIラッパーを使っているなら、そのランタイムのバージョンも更新してください。(現時点ではllama.cppにb8660以降のビルドで別のトークナイザの問題があります。ツール呼び出しに問題はありますが、チャットには動くb8660を今は使ってください)
私のテストでは、以前のデイリードライバー(Qwen 3.5 27B)と比べて:
- 80 tps+で動く(20 tps)
- --image-min-tokens 300で、ローカルで動かしているQwen 3 27Bバリアントに対してビジョンが>=です
- 多言語対応がより良い、かなり良い
- Systems & DevOpsに対して優れている
- より更新されたライブラリを必要とする実世界のコーディングでは、Qwenは古いモジュールを使うことがより多いので、こちらの方がずっと良いです
- ロングコンテキストではQwenの方がまだ少し良いですが、これはMoEなので想定内です
[link] [comments]




