Qwen3.6 27Bで皆はどれくらいの速度(トークン毎秒)を出している?

Reddit r/LocalLLaMA / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • Redditの投稿者は、llama.cpp経由でQwen3.6 27BのQ8_0量子化を使い、128kのコンテキストウィンドウで約13トークン/秒が出たと報告しています。
  • 構成としては3枚のGPU(RTX 2060 Super 8GB×1、RTX 5060 Ti 16GB×2)を使用し、K/VキャッシュをQ8_0に設定するなどの具体的なllama-server起動パラメータを示しています。
  • 投稿者は温度やtop-p/top-k、ペナルティ、キャッシュ設定といった構成詳細を共有し、そのスループットが想定より遅いのかを質問しています。
  • さらに、視覚(vision)機能の動作に余裕を残すために、--fit-targetを1536にしていると補足しています。
  • 全体として、この投稿はローカルLLM推論の速度感(ベンチマーク)について、コミュニティの反応を求める内容です。

Q8_0で約13 tps出ています。コンテキストウィンドウは128000、K Q8_0、V Q8_0です

これは3台のGPU(1x2060super 8gb、2x5060ti 16gb)で、llamacpp経由です

これって遅いのか、それとも予想どおりですか?

*/llama-server --port 8080 --model */llama.cpp/Qwen3.6-27B-Q8_0/Qwen3.6-27B-Q8_0.gguf -mm */Qwen3.6-27B-Q8_0/mmproj-BF16.gguf -np 1 --temperature 1.0 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 --chat-template-kwargs '{"preserve_thinking": true}' --cache-type-k q8_0 --cache-type-v q8_0 -c 128000 --fit-target 1536

(--fit-target 1536は、ビジョン機能が動くための余裕を少し確保するためでした)

投稿者 /u/Ambitious_Fold_2874
[リンク] [コメント]