Qwen 3.6 27B IQ4_XS：RTX 5060 Tiで22トークン/秒、最大24kコンテキスト

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

ユーザーがllama-serverでQwen 3.6 27B IQ4_XSを動かした結果、RTX 5060 Ti（16GB構成）で約22トークン/秒を達成できたと報告しています。
報告によれば、このモデルは最大24kのコンテキスト長に到達可能ですが、KV量子化の制約により8kを超える場合はより高いKV量子化設定が難しいようです。
-ub や -b などの実行パラメータを調整することで最大16kまで実用的なコンテキストを伸ばし、GNOMEを無効化して追加のメモリ（約300MiB）を確保することで24k制限に近づけたとされています。
選択した量子化設定では約63/65層をロードして動作する一方、Q4量子化としてはその性能/品質のバランスが許容できるとの評価です。
使用した量子化済みGGUFファイルは、Hugging Face上のUnsloth由来のリンクから作成したとされています。

誰かの役に立つかもしれないので：
llama-server -m '/Qwen3.6-27B/Qwen3.6-27B-IQ4_XS.gguf' -ngl 999 -ctk q4_0 -ctv q4_0 -b 128 -ub 128 -c 24000

このモデルは、>8192ctx サイズでは、より高いkv量子化（quants）で実行できません。
-ub と -b を設定したところ、256 が許可され、最大 16384 ctx まで対応できました。

私が取得できる ctx の最大サイズは 24k です。gnome を無効にしたことで、追加で 300MiB 使えるようになりました。

かなり良い感じですが、多くのケースでは使用用途としてはかなり低いのは分かっています。

このGPU負荷は、量子化コンテキストなしでこの quants で 63/65 レイヤーです。とはいえ q4 なので、十分だと思います。