Qwen3.6 27Bで皆はどれくらいの速度（トークン毎秒）を出している？

Reddit r/LocalLLaMA / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

Redditの投稿者は、llama.cpp経由でQwen3.6 27BのQ8_0量子化を使い、128kのコンテキストウィンドウで約13トークン/秒が出たと報告しています。
構成としては3枚のGPU（RTX 2060 Super 8GB×1、RTX 5060 Ti 16GB×2）を使用し、K/VキャッシュをQ8_0に設定するなどの具体的なllama-server起動パラメータを示しています。
投稿者は温度やtop-p/top-k、ペナルティ、キャッシュ設定といった構成詳細を共有し、そのスループットが想定より遅いのかを質問しています。
さらに、視覚（vision）機能の動作に余裕を残すために、--fit-targetを1536にしていると補足しています。
全体として、この投稿はローカルLLM推論の速度感（ベンチマーク）について、コミュニティの反応を求める内容です。

Q8_0で約13 tps出ています。コンテキストウィンドウは128000、K Q8_0、V Q8_0です

これは3台のGPU（1x2060super 8gb、2x5060ti 16gb）で、llamacpp経由です

これって遅いのか、それとも予想どおりですか？

*/llama-server --port 8080 --model */llama.cpp/Qwen3.6-27B-Q8_0/Qwen3.6-27B-Q8_0.gguf -mm */Qwen3.6-27B-Q8_0/mmproj-BF16.gguf -np 1 --temperature 1.0 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 --chat-template-kwargs '{"preserve_thinking": true}' --cache-type-k q8_0 --cache-type-v q8_0 -c 128000 --fit-target 1536

(--fit-target 1536は、ビジョン機能が動くための余裕を少し確保するためでした)

投稿者 /u/Ambitious_Fold_2874
[リンク] [コメント]