OpenCode 用に Qwen3.6 27B を最適にセットアップするための、いくつかアドバイスを探しているところです。VRAM は少し足りないのですが、とりあえず今のところはこれでやっています:
llama-server --model models/Qwen3.6-27B-IQ4_XS.gguf \\ --port 8080 \\ --host 127.0.0.1 \\ --top-p 0.95 \\ --top-k 20 \\ --min-p 0.0 \\ --temperature 0.6 \\ --flash-attn on \\ --cache-type-k q8_0 \\ --cache-type-v q8_0 \\ --presence-penalty 0.0 \\ --repeat-penalty 1.0 \\ --ctx-size 65536 \\ --chat-template-kwargs '{"preserve_thinking": true}' \\ これでの VRAM 使用量はだいたい 18.6/20 GB です。つまり、さらに約 0.5GB くらいは伸ばせそうです。
もちろん MoE のおかげで KV キャッシュの量子化なしで収まる Qwen3.6 35B もあって、Q4_K_M あるいは K_XL、もしかすると Q5 でもいけるのですが、今回の目的に関しては 27B より得るものがあるとは思っていません。
[link] [comments]



