RTX 5090上でvLLMによりQwen3.5-27Bを提供（77 tps）

Reddit r/LocalLLaMA / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Redditの投稿者が、RTX 5090上でvLLMを使ってQwen3.5-27Bをローカル実行し、非常に高いスループット（約77 tps）と218kのコンテキストウィンドウを実現できたと報告しています。
投稿者は、同設定ではvLLM 0.19で256kのフルコンテキストを達成できなかった一方、vLLM 0.17では動作したものの最適化が少なくtpsが低下したと述べています。
構成はHugging Faceのモデルカードのガイドに加えて、KVキャッシュサイズ計算を修正する重要なvLLMパッチ（vLLM PR #36325）に依存しています。
提供されたvLLMのサービング設定には、flashinferの注意（attention）バックエンド、FP8のKVキャッシュdtype、auto tool choice、prefix caching、modeloptによる量子化などの主要フラグが含まれており、最大2シーケンスの同時実行にも対応します（1セッションあたりの速度は低下するのが前提）。
投稿者は、テストした別のモデル派生がうまく動かなかったとして注意を促し、画像処理はできない代替としてQwen3.5-27B Text NVFP4 MTPの特定チェックポイントを推奨しています。

今月はカーソルの$20サブとzaiの$10サブを使い切ってしまったので、ローカルLLMのセットアップに切り替えました。RTX5090上でQwen3.5 27Bを動かして、良い結果が出て、tpsもかなり良好でした。コンテキストウィンドウは218kです。この構成では2つの同時セッションも動かせますが、セッションごとの速度は期待通り低下します。なぜかvllm 0.19で256kのフルコンテキストウィンドウがうまく動作しません。下のガイドどおりvllm 0.17では動きますが、0.17にはvllm 0.19にあるはずの最適化があまりないためtpsが低下します。

レシピ:

vllm 0.19（レシピhttps://huggingface.co/mconcat/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-NVFP4を参照）；ただし私のテストではこのモデルはあまりうまく動かなかったので、使うことはおすすめしません。しかし、モデルカード内のガイドはかなり役に立ちます。

vllmのKVサイズ計算を修正するパッチ https://github.com/vllm-project/vllm/pull/36325（**これは超重要**）

model: hugging faceの osoleve/Qwen3.5-27B-Text-NVFP4-MTP（**画像処理ができないという欠点はありますが、かなりうまく動きます**）

cli: opencode

vllm設定:

vllm serve "Qwen3.5-27B-Text-NVFP4-MTP"

--max-model-len "218592"

--gpu-memory-utilization "0.93"

--attention-backend flashinfer

--performance-mode interactivity

--language-model-only

--kv-cache-dtype "fp8_e4m3"

--max-num-seqs "2"

--skip-mm-profiling

--quantization modelopt

--reasoning-parser qwen3

--chat-template "/root/autodl-tmp/llm-start/qwen3.5-enhanced.jinja"

--enable-auto-tool-choice

--enable-prefix-caching

--tool-call-parser qwen3_coder（**私のテストではqwen3_xmlよりqwen3_coderの方がうまく動きました**）

--host "0.0.0.0"

--port "6006"

submitted by /u/Kindly-Cantaloupe978
[link] [comments]

Black Hat USA

AI Business

ブラックハット・アジア

AI Business

法務の審査時間を40%削減ーClaudeと「契約データベース」をつなぐと何が変わるのか

note

Copilotと物語を作ってみた #229 こしょこしょ悪態ヒロイン

note

Claude Designに依るWebデザインのこれから（自論）

note

RTX 5090上でvLLMによりQwen3.5-27Bを提供（77 tps）

要点

関連記事

Black Hat USA

ブラックハット・アジア

法務の審査時間を40%削減ーClaudeと「契約データベース」をつなぐと何が変わるのか

Copilotと物語を作ってみた #229 こしょこしょ悪態ヒロイン

Claude Designに依るWebデザインのこれから（自論）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer