RTX 5090上でvLLMによりQwen3.5-27Bを提供(77 tps)

Reddit r/LocalLLaMA / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Redditの投稿者が、RTX 5090上でvLLMを使ってQwen3.5-27Bをローカル実行し、非常に高いスループット(約77 tps)と218kのコンテキストウィンドウを実現できたと報告しています。
  • 投稿者は、同設定ではvLLM 0.19で256kのフルコンテキストを達成できなかった一方、vLLM 0.17では動作したものの最適化が少なくtpsが低下したと述べています。
  • 構成はHugging Faceのモデルカードのガイドに加えて、KVキャッシュサイズ計算を修正する重要なvLLMパッチ(vLLM PR #36325)に依存しています。
  • 提供されたvLLMのサービング設定には、flashinferの注意(attention)バックエンド、FP8のKVキャッシュdtype、auto tool choice、prefix caching、modeloptによる量子化などの主要フラグが含まれており、最大2シーケンスの同時実行にも対応します(1セッションあたりの速度は低下するのが前提)。
  • 投稿者は、テストした別のモデル派生がうまく動かなかったとして注意を促し、画像処理はできない代替としてQwen3.5-27B Text NVFP4 MTPの特定チェックポイントを推奨しています。

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

RTX 5090上でvLLMによりQwen3.5-27Bを提供(77 tps) | AI Navigate