Qwen3.6-27BをWindowsネイティブでvLLM実行：RTX 3090で72 tok/s、WSLやDockerなし（ポータブル起動/インストーラ）

Reddit r/LocalLLaMA / 2026/5/2

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

WSLやDockerを使わずに、ネイティブWindows上でvLLMによりQwen3.6-27Bを動かすためのセットアップが、オープンソースのGitHubプロジェクトとしてポータブルなインストーラ/ランチャー形式で提示されています。
Windows 10環境でRTX 3090を使用した実測として、短いプロンプトで72 tok/s、長いプロンプト（約25kトークン）で64.5 tok/s、シングルGPUで127kコンテキスト時に53.4 tok/s、さらにPP=2で2基の3090にスケールして160kコンテキストが報告されています。
Windows向けにパッチしたvLLMフォークが提供され、起動時にまず同梱のvLLMホイールを組み込みPythonへワンタイムでインストールし、その後必要に応じてHugging FaceからLorbus AutoRound INT4の量子化モデルを自動取得する設計です。
start.batを起動してスナップショットを選ぶだけで、ローカルのOpenAI互換エンドポイント（http://127.0.0.1:5001/v1）に接続して利用できるようになっています。
対応GPUはAmpere/Ada/Blackwell世代（例：3090/4090/5090/A6000）で、Pascal/Turing/ArcやAMDでは動作しない想定が明記されています。

Qwen3.6-27B at 72 tok/s on RTX 3090 on Windows using native vLLM (no WSL, no Docker), portable launcher and installer

ここでの環境はネイティブWindowsで、WSLは使っていません。シンプルなインストール、オープンソース、テレメトリなし。何かを売ったり宣伝したりしているわけではありません： https://github.com/devnen/qwen3.6-windows-server

数値（RTX 3090、Windows 10）： - 72 tok/s 短いプロンプト - 64.5 tok/s 長いプロンプト（~25kトークン） - 53.4 tok/s at 127k ctx（単一GPU） - PP=2（2×3090 GPU）で160k ctx

正直なところ、これは r/LocalLLaMA の記録ではありません。コミュニティではTurboQuant 3-bit KVで3090が80〜82 tok/s、Linux上の5090で160 tok/sを出しています。私のランチャーとパッチ済みvLLMは、それをWindowsで埋めます。

簡単なインストール： 1. リリースから qwen3.6-windows-server-portable-x64.zip をダウンロードします 2. どこでもいいので解凍します。管理者権限不要、pip不要、Python不要 3. start.bat をダブルクリックし、スナップショットを選んでEnter 4. http://127.0.0.1:5001/v1 でOpenAI互換のエンドポイントを開きます

この動作にするために、Windows向けにいくつかの問題を修正するパッチ済みのvLLMフォークをビルドする必要がありました。事前ビルド済みホイールを同梱したポータブルランチャーを用意しています。

初回実行では、同梱されたvLLMホイール＋依存関係を組み込みPythonにインストールします（~5〜15分、1回のみ）。その後、まだ持っていない場合はHuggingFaceからLorbus AutoRound INT4量子化を自動ダウンロードするかどうかを尋ねます。以降の起動はそのままTUIに進みます。

Windows 10 + Lorbus AutoRound INT4量子化の2× RTX 3090でテストしました。どのAmpere/Ada/Blackwellカード（3090/4090/5090/A6000）でも動くはずです。Pascal、Turing、Arc、またはAMDでは動きません。

Linux向けにも同様のランチャーとパッチ済みvLLMがあり、かなり競争力のある数値が出ていますが、まだ作業中です。

Windows上の3090/4090/5090なら、一度試して数値を投稿してください。

詳細、パッチ、ベンチマーク、構成スナップショット： https://github.com/devnen/qwen3.6-windows-server

submitted by /u/One_Slip1455
[link] [comments]