16GB VRAM向け Gemma 4

Reddit r/LocalLLaMA / 2026/4/5

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

Redditのユーザーが、16GB VRAM搭載マシンで26B Gemma 4 A4B MoEモデルを動かすための実用的な構成を共有し、特にビジョン用途で最適な現時点のGGUF量子化設定を強調している。
投稿では、優れた性能を得るにはパラメータの調整（例：temperature、top-p、min-p、top-k）が必要であり、特にコーディング品質の向上に効く点を強調している。
ビジョンについては、F16のmmprojを使用し、画像トークンの下限（とくに --image-min-tokens 300 のような高いmin）を設定することで、ビジョン性能を大幅に向上できると推奨している。
著者は、適切な設定によりKVキャッシュをfp16で用いて30K超のトークンを収められると述べ、コンテキストを増やすためにKV Q8へ切り替えると品質が目に見えて低下することがある点に警告している。
さらに、最近のllama.cppビルドを使うことを勧めつつ、トークナイザ／ツール呼び出しの問題を一時的に回避するため、互換性の都合で特定のビルドに留まることで対処しており、ローカルのQwen 3.5 27B構成との速度／品質比較結果も報告している。

私は26B A4BのMoEモデルは16 GB向けに優れていると思います。多くの量子化を試しましたが、ビジョンを維持したい場合、現時点で最適なのはこれだと思います：

https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF/blob/main/gemma-4-26B-A4B-it-UD-IQ4_XS.gguf

（bartowskiのバリアントも試しましたが、unslothはサイズに対する推論がより良いです）

ただし、最高の性能を得るにはいくつかパラメータ調整が必要で、特にコーディングでは：

--temp 0.3 --top-p 0.9 --min-p 0.1 --top-k 20

tempとtop-kを低めに保ち、min-pを少し高めにすると、非常に良い結果になります。これまで問題はなく、aistudioでホストされているモデルにかなり近い性能です。

ビジョンではmmproj-F16.ggufを使ってください。FP32ではまったく恩恵がなく、そして非常に重要なのは：

--image-min-tokens 300 --image-max-tokens 1024

画像は最低300トークンを使ってください。ビジョン性能が大きく向上します。

この設定だと、np -1でKV fp16に30K+トークンを収められます。もっと必要なら、KV Q8にするよりビジョンを落とした方がよいと思います。かなり悪化します。

この設定で、このモデルは16 GB VRAMに対して絶対的な怪物だと感じています。

最新のllama.cppビルドを使うようにしてください。もし他のUIラッパーを使っているなら、そのランタイムのバージョンも更新してください。（現時点ではllama.cppにb8660以降のビルドで別のトークナイザの問題があります。ツール呼び出しに問題はありますが、チャットには動くb8660を今は使ってください）

私のテストでは、以前のデイリードライバー（Qwen 3.5 27B）と比べて：

- 80 tps+で動く（20 tps）

- --image-min-tokens 300で、ローカルで動かしているQwen 3 27Bバリアントに対してビジョンが>=です

- 多言語対応がより良い、かなり良い

- Systems & DevOpsに対して優れている

- より更新されたライブラリを必要とする実世界のコーディングでは、Qwenは古いモジュールを使うことがより多いので、こちらの方がずっと良いです

- ロングコンテキストではQwenの方がまだ少し良いですが、これはMoEなので想定内です

submitted by /u/Sadman782
[link] [comments]