Gemma 4 26B A3B IQ4 NL です。
私の llama.cpp のコマンドは:
llama-server.exe -m "gemma-4-26B-A4B-it-UD-IQ4_NL.gguf" -ngl 999 -fa on -c 65536 -ctk q8_0 -ctv q8_0 --batch-size 1024 --ubatch-size 512 --temp 1.0 --top-k 64 --top-p 0.95 --min-p 0.0 --repeat-penalty 1.0 --no-warmup --port 8080 --host 0.0.0.0 --chat-template-kwargs "{ "enable_thinking":true " --perf
要するに、これは Google の推奨設定そのままですが、VS Code の Claude Code における共同アシスタントとして、これが本当にうまく機能してくれました。
テストもしましたが、評価はだいたい 6.5/10 です。guide.md を読み、それに従い、ファイルも読み込み、その他にもいろいろやってくれます。主な問題は、パッケージの細かいところをうまく扱えないことです。つまり、ファイル同士を完全に正確に相互に結び付けられない、ということです。
ただ、それは課題としてはそこまでです。それ以外はすべて素晴らしいです。コンテキストサイズが大きく、1 秒あたり <100 トークンと高速だからです。私のテストでは、いくつかのモデルのうち、カーウォッシュテストを通過した数少ないモデルの 1 つです。
[link] [comments]



