[7900XT] OpenCode向けのQwen3.6 27Bの最適セットアップに関する相談

Reddit r/LocalLLaMA / 2026/4/28

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この投稿では、VRAMが限られたAMD Radeon RX 7900 XT環境でOpenCode向けにQwen3.6 27Bを最適にセットアップする方法について助言を求めています。
  • 投稿者は、サンプリング関連パラメータ、キャッシュ設定、flash-attnの有効化、そして65,536という非常に大きいコンテキスト長を含む具体的なllama-server起動設定を共有し、現在のVRAM使用量が約18.6/20 GBであると述べています。
  • さらに、VRAM使用量をおよそ0.5 GB程度なら増やせる可能性があるため、コンテキストやキャッシュに関わる微調整の余地があると見込んでいます。
  • 投稿者は、MoEを活かしたQwen3.6 35Bの選択肢にも触れつつ、KVキャッシュの量子化の違いなどを考慮しても、目標に対して27Bより大きな利点はないだろうという結論を示しています。
  • 全体として、VRAM制約下でQwen系モデルをローカル実行する際の実践的なチューニングがテーマです。

OpenCode 用に Qwen3.6 27B を最適にセットアップするための、いくつかアドバイスを探しているところです。VRAM は少し足りないのですが、とりあえず今のところはこれでやっています:

llama-server --model models/Qwen3.6-27B-IQ4_XS.gguf \\ --port 8080 \\ --host 127.0.0.1 \\ --top-p 0.95 \\ --top-k 20 \\ --min-p 0.0 \\ --temperature 0.6 \\ --flash-attn on \\ --cache-type-k q8_0 \\ --cache-type-v q8_0 \\ --presence-penalty 0.0 \\ --repeat-penalty 1.0 \\ --ctx-size 65536 \\ --chat-template-kwargs '{"preserve_thinking": true}' \\ 

これでの VRAM 使用量はだいたい 18.6/20 GB です。つまり、さらに約 0.5GB くらいは伸ばせそうです。

もちろん MoE のおかげで KV キャッシュの量子化なしで収まる Qwen3.6 35B もあって、Q4_K_M あるいは K_XL、もしかすると Q5 でもいけるのですが、今回の目的に関しては 27B より得るものがあるとは思っていません。

submitted by /u/Mordimer86
[link] [comments]