Qwen3.6-27BをWindowsネイティブでvLLM実行:RTX 3090で72 tok/s、WSLやDockerなし(ポータブル起動/インストーラ)

Reddit r/LocalLLaMA / 2026/5/2

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • WSLやDockerを使わずに、ネイティブWindows上でvLLMによりQwen3.6-27Bを動かすためのセットアップが、オープンソースのGitHubプロジェクトとしてポータブルなインストーラ/ランチャー形式で提示されています。
  • Windows 10環境でRTX 3090を使用した実測として、短いプロンプトで72 tok/s、長いプロンプト(約25kトークン)で64.5 tok/s、シングルGPUで127kコンテキスト時に53.4 tok/s、さらにPP=2で2基の3090にスケールして160kコンテキストが報告されています。
  • Windows向けにパッチしたvLLMフォークが提供され、起動時にまず同梱のvLLMホイールを組み込みPythonへワンタイムでインストールし、その後必要に応じてHugging FaceからLorbus AutoRound INT4の量子化モデルを自動取得する設計です。
  • start.batを起動してスナップショットを選ぶだけで、ローカルのOpenAI互換エンドポイント(http://127.0.0.1:5001/v1)に接続して利用できるようになっています。
  • 対応GPUはAmpere/Ada/Blackwell世代(例:3090/4090/5090/A6000)で、Pascal/Turing/ArcやAMDでは動作しない想定が明記されています。
Qwen3.6-27B at 72 tok/s on RTX 3090 on Windows using native vLLM (no WSL, no Docker), portable launcher and installer

ここでの環境はネイティブWindowsで、WSLは使っていません。シンプルなインストール、オープンソース、テレメトリなし。何かを売ったり宣伝したりしているわけではありません: https://github.com/devnen/qwen3.6-windows-server

数値(RTX 3090、Windows 10): - 72 tok/s 短いプロンプト - 64.5 tok/s 長いプロンプト(~25kトークン) - 53.4 tok/s at 127k ctx(単一GPU) - PP=2(2×3090 GPU)で160k ctx

正直なところ、これは r/LocalLLaMA の記録ではありません。コミュニティではTurboQuant 3-bit KVで3090が80〜82 tok/s、Linux上の5090で160 tok/sを出しています。私のランチャーとパッチ済みvLLMは、それをWindowsで埋めます。

簡単なインストール: 1. リリースから qwen3.6-windows-server-portable-x64.zip をダウンロードします 2. どこでもいいので解凍します。管理者権限不要、pip不要、Python不要 3. start.bat をダブルクリックし、スナップショットを選んでEnter 4. http://127.0.0.1:5001/v1 でOpenAI互換のエンドポイントを開きます

この動作にするために、Windows向けにいくつかの問題を修正するパッチ済みのvLLMフォークをビルドする必要がありました。事前ビルド済みホイールを同梱したポータブルランチャーを用意しています。

初回実行では、同梱されたvLLMホイール+依存関係を組み込みPythonにインストールします(~5〜15分、1回のみ)。その後、まだ持っていない場合はHuggingFaceからLorbus AutoRound INT4量子化を自動ダウンロードするかどうかを尋ねます。以降の起動はそのままTUIに進みます。

Windows 10 + Lorbus AutoRound INT4量子化の2× RTX 3090でテストしました。どのAmpere/Ada/Blackwellカード(3090/4090/5090/A6000)でも動くはずです。Pascal、Turing、Arc、またはAMDでは動きません。

Linux向けにも同様のランチャーとパッチ済みvLLMがあり、かなり競争力のある数値が出ていますが、まだ作業中です。

Windows上の3090/4090/5090なら、一度試して数値を投稿してください。

詳細、パッチ、ベンチマーク、構成スナップショット: https://github.com/devnen/qwen3.6-windows-server

submitted by /u/One_Slip1455
[link] [comments]