誰かの役に立つかもしれないので:
llama-server -m '/Qwen3.6-27B/Qwen3.6-27B-IQ4_XS.gguf' -ngl 999 -ctk q4_0 -ctv q4_0 -b 128 -ub 128 -c 24000
このモデルは、>8192ctx サイズでは、より高いkv量子化(quants)で実行できません。
-ub と -b を設定したところ、256 が許可され、最大 16384 ctx まで対応できました。
私が取得できる ctx の最大サイズは 24k です。gnome を無効にしたことで、追加で 300MiB 使えるようになりました。
かなり良い感じですが、多くのケースでは使用用途としてはかなり低いのは分かっています。
このGPU負荷は、量子化コンテキストなしでこの quants で 63/65 レイヤーです。とはいえ q4 なので、十分だと思います。
私は unsloth の量子化を使用しました:https://huggingface.co/unsloth/Qwen3.6-27B-GGUF?show_file_info=Qwen3.6-27B-IQ4_XS.gguf
[リンク] [コメント]




