Qwen3.6 27B / llama.cpp / opencode に最適な設定（ベスト構成）

Reddit r/LocalLLaMA / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

この投稿は、llama.cpp で Qwen3.6 27B（GGUF）を動かすための最適設定を求めるもので、複数のユーザーが動作しているコマンド例を共有しています。
例には、Windows の 2×3080（20GB）から DGX、さらに 7900XTX（24GB）1台まで、ハードウェアの違いに応じて、コンテキスト長やGPUオフロード、バッチ/ubatch、テンソル分割などのパラメータを調整する設定が含まれます。
非常に大きなコンテキスト長（約196kや約160kなど）を想定しつつ、温度や top-p/top-k、min-p、反復ペナルティといったデコード設定を調整して、速度と品質のバランスを取っています。
投稿者は更新として、自身のデュアルGPU環境で turboquant3/4 を試したところ、コードベース解析の「開始から終了まで」の体感では遅くなったと報告しています。
結論として、「ベスト構成」はハードと目的（狙うワークロード）に強く依存し、コンテキスト長、GPUレイヤーのオフロード量、量子化やスループット関連のオプションによって性能差が出やすい点が重要です。

あなたのベストな設定を共有してください<3

Windows 2x3080 20GB VRAM、DDR4 256GB RAM、llama.ccp、On（100Kの埋め込みコンテキスト）で、私は400/11 pp/tg（私のセットアップ）：

"A:/0_llama_server/llama-server.exe" -m "a:\0_LM_Studio\unsloth\Qwen3.6-27B-GGUF\Qwen3.6-27B-UD-Q5_K_XL.gguf" --port 8080 --alias qwen3.5:27b -ngl 999 --threads 22 --flash-attn on --host[0.0.0.0](http://0.0.0.0)--no-mmap -mg 1 --batch-size 1024 --ubatch-size 512 --ctx-checkpoints 128 --ctx-size 196610 --reasoning on --jinja --draft-max 128 --spec-ngram-size-n 48 --draft-min 2 --spec-type ngram-mod --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --repeat_penalty 1.0 --presence_penalty 0.0 --chat-template-kwargs "{"preserve_thinking":true}" --tensor-split 0.46,0.54

DGX（ユーザー Impossible_Art9151）：

llama-server -hf unsloth/Qwen3.6-27B-GGUF:UD-Q8_K_XL --host 0.0.0.0 --port 8095 --ctx-size 512000 --no-mmap --parallel 2 --flash-attn on --n-gpu-layers 999 -chat-template-kwargs "{"preserve_thinking":true}" --temp 0.7 --top-p 0.95 --top-k 20 --min-p 0.00 --repeat_penalty 1.0 --presence_penalty 0.0

24gb vram、7900XTX、35t/s、そしてpp 400、27t/s（160kコンテキスト時）（ユーザー soyalemujica）：

llama-server.exe -ctv q8_0 -ctk q8_0 -c 160000 --temp 0.6 --top-p 0.95 --top-k 20 --repeat-penalty 1.0 --fit on

UPDATE（私のセットアップ）：デュアルGPU構成でturboquant3と4を試しましたが、残念ながら遅くなりました。開始->終了（コードベースを解析するためのプロンプト）

submitted by /u/Familiar_Wish1132
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/23Dailyインサイトを見る →

Black Hat USA

AI Business

日産やVWがE2E自動運転で攻勢、吉利・長安がHEV参入北京ショー開幕へ

日経XTECH

なぜあなたのブランドはChatGPTに見つけられないのか（そして直し方）

Dev.to

ノーフリーランチ定理（No Free Lunch Theorem）— ディープダイブ＋問題：ビットを反転

Dev.to

Salesforce Headless 360：ブラウザなしでCRMを動かす

Dev.to

Qwen3.6 27B / llama.cpp / opencode に最適な設定（ベスト構成）

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

日産やVWがE2E自動運転で攻勢、吉利・長安がHEV参入北京ショー開幕へ

なぜあなたのブランドはChatGPTに見つけられないのか（そして直し方）

ノーフリーランチ定理（No Free Lunch Theorem）— ディープダイブ＋問題：ビットを反転

Salesforce Headless 360：ブラウザなしでCRMを動かす

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

日産やVWがE2E自動運転で攻勢、吉利・長安がHEV参入 北京ショー開幕へ

なぜあなたのブランドはChatGPTに見つけられないのか（そして直し方）

ノーフリーランチ定理（No Free Lunch Theorem）— ディープダイブ＋問題：ビットを反転

Salesforce Headless 360：ブラウザなしでCRMを動かす

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産やVWがE2E自動運転で攻勢、吉利・長安がHEV参入北京ショー開幕へ