Qwen3.6 27B / llama.cpp / opencode に最適な設定(ベスト構成)

Reddit r/LocalLLaMA / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • この投稿は、llama.cpp で Qwen3.6 27B(GGUF)を動かすための最適設定を求めるもので、複数のユーザーが動作しているコマンド例を共有しています。
  • 例には、Windows の 2×3080(20GB)から DGX、さらに 7900XTX(24GB)1台まで、ハードウェアの違いに応じて、コンテキスト長やGPUオフロード、バッチ/ubatch、テンソル分割などのパラメータを調整する設定が含まれます。
  • 非常に大きなコンテキスト長(約196kや約160kなど)を想定しつつ、温度や top-p/top-k、min-p、反復ペナルティといったデコード設定を調整して、速度と品質のバランスを取っています。
  • 投稿者は更新として、自身のデュアルGPU環境で turboquant3/4 を試したところ、コードベース解析の「開始から終了まで」の体感では遅くなったと報告しています。
  • 結論として、「ベスト構成」はハードと目的(狙うワークロード)に強く依存し、コンテキスト長、GPUレイヤーのオフロード量、量子化やスループット関連のオプションによって性能差が出やすい点が重要です。

あなたのベストな設定を共有してください<3

Windows 2x3080 20GB VRAM、DDR4 256GB RAM、llama.ccp、On(100Kの埋め込みコンテキスト)で、私は400/11 pp/tg(私のセットアップ):

"A:/0_llama_server/llama-server.exe" -m "a:\0_LM_Studio\unsloth\Qwen3.6-27B-GGUF\Qwen3.6-27B-UD-Q5_K_XL.gguf" --port 8080 --alias qwen3.5:27b -ngl 999 --threads 22 --flash-attn on --host[0.0.0.0](http://0.0.0.0)--no-mmap -mg 1 --batch-size 1024 --ubatch-size 512 --ctx-checkpoints 128 --ctx-size 196610 --reasoning on --jinja --draft-max 128 --spec-ngram-size-n 48 --draft-min 2 --spec-type ngram-mod --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --repeat_penalty 1.0 --presence_penalty 0.0 --chat-template-kwargs "{"preserve_thinking":true}" --tensor-split 0.46,0.54 

DGX(ユーザー Impossible_Art9151):

llama-server -hf unsloth/Qwen3.6-27B-GGUF:UD-Q8_K_XL --host 0.0.0.0 --port 8095 --ctx-size 512000 --no-mmap --parallel 2 --flash-attn on --n-gpu-layers 999 -chat-template-kwargs "{"preserve_thinking":true}" --temp 0.7 --top-p 0.95 --top-k 20 --min-p 0.00 --repeat_penalty 1.0 --presence_penalty 0.0 

24gb vram、7900XTX、35t/s、そしてpp 400、27t/s(160kコンテキスト時)(ユーザー soyalemujica):

llama-server.exe -ctv q8_0 -ctk q8_0 -c 160000 --temp 0.6 --top-p 0.95 --top-k 20 --repeat-penalty 1.0 --fit on 

UPDATE(私のセットアップ):デュアルGPU構成でturboquant3と4を試しましたが、残念ながら遅くなりました。開始->終了(コードベースを解析するためのプロンプト)

submitted by /u/Familiar_Wish1132
[リンク] [コメント]