Q8_0で約13 tps出ています。コンテキストウィンドウは128000、K Q8_0、V Q8_0です
これは3台のGPU(1x2060super 8gb、2x5060ti 16gb)で、llamacpp経由です
これって遅いのか、それとも予想どおりですか?
*/llama-server --port 8080 --model */llama.cpp/Qwen3.6-27B-Q8_0/Qwen3.6-27B-Q8_0.gguf -mm */Qwen3.6-27B-Q8_0/mmproj-BF16.gguf -np 1 --temperature 1.0 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 --chat-template-kwargs '{"preserve_thinking": true}' --cache-type-k q8_0 --cache-type-v q8_0 -c 128000 --fit-target 1536
(--fit-target 1536は、ビジョン機能が動くための余裕を少し確保するためでした)
[リンク] [コメント]


