コミュニティのおかげで、Qwen3.6-27Bの速度はどんどん良くなっています。以下は、yesterdayの私のレシピを改良したもので、なんと100+ tps(TG)を達成しました。
モデル: https://huggingface.co/Lorbus/Qwen3.6-27B-int4-AutoRound
- MTP対応
- KLDは良好(リンク先の投稿によるとNVFP4よりかなり良い)で、さらに最小のモデルであるという利点があります
- 小さなモデルサイズにより、ネイティブの256kコンテキストウィンドウをフルで利用できます
トークン毎秒(TG): 105-108 tps
このLorbusの量子化(クオンツ)を見つけるきっかけになった投稿への特別なクレジット: https://www.reddit.com/r/Olares/comments/1svg2ad/qwen3627b_at_85100_ts_on_a_24gb_rtx_5090_laptop/
なお、セットアップではTQはいじっていません。TQなしでも、モデルがネイティブで持つ最大コンテキスト長にすでに到達できるためです。
Vllm起動設定:
args=(
vllm serve "/root/autodl-tmp/llm-models"
--max-model-len "262144"
--gpu-memory-utilization "0.93"
--attention-backend flashinfer
--performance-mode interactivity
--language-model-only
--kv-cache-dtype "fp8_e4m3"
--max-num-seqs "2"
--skip-mm-profiling
--quantization auto_round
--reasoning-parser qwen3
--enable-auto-tool-choice
--enable-prefix-caching
--enable-chunked-prefill
--tool-call-parser qwen3_coder
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'
--host "0.0.0.0"
--port "6006"
)
[リンク] [コメント]




