Qwen 3.6 27B IQ4_XS:RTX 5060 Tiで22トークン/秒、最大24kコンテキスト

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • ユーザーがllama-serverでQwen 3.6 27B IQ4_XSを動かした結果、RTX 5060 Ti(16GB構成)で約22トークン/秒を達成できたと報告しています。
  • 報告によれば、このモデルは最大24kのコンテキスト長に到達可能ですが、KV量子化の制約により8kを超える場合はより高いKV量子化設定が難しいようです。
  • -ub や -b などの実行パラメータを調整することで最大16kまで実用的なコンテキストを伸ばし、GNOMEを無効化して追加のメモリ(約300MiB)を確保することで24k制限に近づけたとされています。
  • 選択した量子化設定では約63/65層をロードして動作する一方、Q4量子化としてはその性能/品質のバランスが許容できるとの評価です。
  • 使用した量子化済みGGUFファイルは、Hugging Face上のUnsloth由来のリンクから作成したとされています。

誰かの役に立つかもしれないので:
llama-server -m '/Qwen3.6-27B/Qwen3.6-27B-IQ4_XS.gguf' -ngl 999 -ctk q4_0 -ctv q4_0 -b 128 -ub 128 -c 24000

このモデルは、>8192ctx サイズでは、より高いkv量子化(quants)で実行できません。
-ub と -b を設定したところ、256 が許可され、最大 16384 ctx まで対応できました。

私が取得できる ctx の最大サイズは 24k です。gnome を無効にしたことで、追加で 300MiB 使えるようになりました。

かなり良い感じですが、多くのケースでは使用用途としてはかなり低いのは分かっています。

このGPU負荷は、量子化コンテキストなしでこの quants で 63/65 レイヤーです。とはいえ q4 なので、十分だと思います。

私は unsloth の量子化を使用しました:https://huggingface.co/unsloth/Qwen3.6-27B-GGUF?show_file_info=Qwen3.6-27B-IQ4_XS.gguf

送信者: /u/BazzyIm
[リンク] [コメント]