Qwen3.6-27B は数日間で登場しており、MTP 付きの NVFP4 は HF 上ではより早い段階で削除(ドロップ)されました: https://huggingface.co/sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP
同じレシピを Qwen3.5-27B に対して使ったものと同様に使えば、最新の vllm 0.19 ビルド(vLLM 0.19.1rc1)で、単一の RTX 5090 上・218k のコンテキストウィンドウにて約 80 tps を達成できます
https://www.reddit.com/r/LocalLLaMA/comments/1sr8gyf/qwen3527b_on_rtx_5090_served_via_vllm_77_tps/
[リンク] [コメント]




