Qwen3.6-27B-INT4:vLLM 0.19で1基のRTX 5090により256kコンテキスト時に100 tps超を実現

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 記事では、Qwen3.6-27B-INT4(AutoRound)モデルでネイティブな256kコンテキストを使い、105〜108トークン/秒(100+ tps)を達成したと報告しています。
  • セットアップはvLLM 0.19と単一のRTX 5090上で動作し、フルの256k長でも性能を保つための設定方針が中心になっています。
  • MTPがサポートされていることや、KLDの品質は良好とされ(NVFP4との比較でも優れていると説明)、量子化によりモデルサイズが小さい点が利点だと述べています。
  • 著者はTQを設定しておらず、TQなしでもモデルがネイティブの最大コンテキスト長まで到達できるためだとしています。
  • FlashInferの注意(attention)バックエンド、fp8_e4m3のKVキャッシュdtype、auto_round量子化、MTPによる推論(speculative)デコードのパラメータなど、vLLMの詳細な起動設定が提示されています。

コミュニティのおかげで、Qwen3.6-27Bの速度はどんどん良くなっています。以下は、yesterdayの私のレシピを改良したもので、なんと100+ tps(TG)を達成しました。

モデル: https://huggingface.co/Lorbus/Qwen3.6-27B-int4-AutoRound

- MTP対応

- KLDは良好(リンク先の投稿によるとNVFP4よりかなり良い)で、さらに最小のモデルであるという利点があります

- 小さなモデルサイズにより、ネイティブの256kコンテキストウィンドウをフルで利用できます

トークン毎秒(TG): 105-108 tps

このLorbusの量子化(クオンツ)を見つけるきっかけになった投稿への特別なクレジット: https://www.reddit.com/r/Olares/comments/1svg2ad/qwen3627b_at_85100_ts_on_a_24gb_rtx_5090_laptop/

なお、セットアップではTQはいじっていません。TQなしでも、モデルがネイティブで持つ最大コンテキスト長にすでに到達できるためです。

Vllm起動設定:

args=(

vllm serve "/root/autodl-tmp/llm-models"

--max-model-len "262144"

--gpu-memory-utilization "0.93"

--attention-backend flashinfer

--performance-mode interactivity

--language-model-only

--kv-cache-dtype "fp8_e4m3"

--max-num-seqs "2"

--skip-mm-profiling

--quantization auto_round

--reasoning-parser qwen3

--enable-auto-tool-choice

--enable-prefix-caching

--enable-chunked-prefill

--tool-call-parser qwen3_coder

--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

--host "0.0.0.0"

--port "6006"

)

提出者 /u/Kindly-Cantaloupe978
[リンク] [コメント]