RTX 5090上でvLLMによりQwen3.5-27Bを提供(77 tps)

Reddit r/LocalLLaMA / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Redditの投稿者が、RTX 5090上でvLLMを使ってQwen3.5-27Bをローカル実行し、非常に高いスループット(約77 tps)と218kのコンテキストウィンドウを実現できたと報告しています。
  • 投稿者は、同設定ではvLLM 0.19で256kのフルコンテキストを達成できなかった一方、vLLM 0.17では動作したものの最適化が少なくtpsが低下したと述べています。
  • 構成はHugging Faceのモデルカードのガイドに加えて、KVキャッシュサイズ計算を修正する重要なvLLMパッチ(vLLM PR #36325)に依存しています。
  • 提供されたvLLMのサービング設定には、flashinferの注意(attention)バックエンド、FP8のKVキャッシュdtype、auto tool choice、prefix caching、modeloptによる量子化などの主要フラグが含まれており、最大2シーケンスの同時実行にも対応します(1セッションあたりの速度は低下するのが前提)。
  • 投稿者は、テストした別のモデル派生がうまく動かなかったとして注意を促し、画像処理はできない代替としてQwen3.5-27B Text NVFP4 MTPの特定チェックポイントを推奨しています。

今月はカーソルの$20サブとzaiの$10サブを使い切ってしまったので、ローカルLLMのセットアップに切り替えました。RTX5090上でQwen3.5 27Bを動かして、良い結果が出て、tpsもかなり良好でした。コンテキストウィンドウは218kです。この構成では2つの同時セッションも動かせますが、セッションごとの速度は期待通り低下します。なぜかvllm 0.19で256kのフルコンテキストウィンドウがうまく動作しません。下のガイドどおりvllm 0.17では動きますが、0.17にはvllm 0.19にあるはずの最適化があまりないためtpsが低下します。

レシピ:

vllm 0.19(レシピhttps://huggingface.co/mconcat/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-NVFP4を参照);ただし私のテストではこのモデルはあまりうまく動かなかったので、使うことはおすすめしません。しかし、モデルカード内のガイドはかなり役に立ちます。

vllmのKVサイズ計算を修正するパッチ https://github.com/vllm-project/vllm/pull/36325(**これは超重要**)

model: hugging faceの osoleve/Qwen3.5-27B-Text-NVFP4-MTP(**画像処理ができないという欠点はありますが、かなりうまく動きます**)

cli: opencode

vllm設定:

vllm serve "Qwen3.5-27B-Text-NVFP4-MTP"

--max-model-len "218592"

--gpu-memory-utilization "0.93"

--attention-backend flashinfer

--performance-mode interactivity

--language-model-only

--kv-cache-dtype "fp8_e4m3"

--max-num-seqs "2"

--skip-mm-profiling

--quantization modelopt

--reasoning-parser qwen3

--chat-template "/root/autodl-tmp/llm-start/qwen3.5-enhanced.jinja"

--enable-auto-tool-choice

--enable-prefix-caching

--tool-call-parser qwen3_coder(**私のテストではqwen3_xmlよりqwen3_coderの方がうまく動きました**)

--host "0.0.0.0"

--port "6006"

submitted by /u/Kindly-Cantaloupe978
[link] [comments]