vLLM 0.19でRTX 5090 1枚にQwen3.6-27Bを提供し、218kコンテキストで約80TPSを達成

Reddit r/LocalLLaMA / 2026/4/25

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Qwen3.6-27Bは、Hugging Face上で公開されており、MTPを使ったNVFP4バリアントも含まれている。
  • 作成者は、Qwen3.5-27B向けに用いたのと同じ手順で、218kコンテキストウィンドウを使いつつRTX 5090 1枚で約80 tokens/second(TPS)を達成できたと報告している。
  • この性能は、vLLM 0.19の最新ビルド、特にvLLM 0.19.1rc1によって可能になったと主張されている。
  • 投稿では、Qwen3.5-27BのRTX 5090/vLLMでの性能報告に関するコミュニティの過去議論も参考として挙げている。

Qwen3.6-27B は数日間で登場しており、MTP 付きの NVFP4 は HF 上ではより早い段階で削除(ドロップ)されました: https://huggingface.co/sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP

同じレシピを Qwen3.5-27B に対して使ったものと同様に使えば、最新の vllm 0.19 ビルド(vLLM 0.19.1rc1)で、単一の RTX 5090 上・218k のコンテキストウィンドウにて約 80 tps を達成できます

https://www.reddit.com/r/LocalLLaMA/comments/1sr8gyf/qwen3527b_on_rtx_5090_served_via_vllm_77_tps/

によって投稿 /u/Kindly-Cantaloupe978
[リンク] [コメント]