Qwen 3.6 + vLLM + Docker + RTX 3090×2 構成でうまく動いています!

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 非営利団体がRTX 3090を2基搭載したAIサーバを運用しており、複数ユーザーの同時利用に向けてvLLMへ切り替えてスループット改善を実現しました。
  • この投稿では、vLLMのOpenAI互換イメージを使い、Hugging Faceキャッシュのマウントやポート8000の公開などを含む、動作しているDocker Compose設定が共有されています。
  • Qwen 3.6 35B AWQ 4-bitモデルを、2GPUでのテンソル並列、長いコンテキスト(最大65,536)、プレフィックスキャッシュ、ならびにツール/コーダー向けのパース設定とともに構成しています。
  • llama-benchyによるベンチマークでは、pp2048のような特定条件で非常に高いトークン生成率が示される一方、テスト種別や条件によっては大きく性能が落ちる結果も見られます。
  • 著者は結果に満足しており、デプロイやチューニングのさらなる改善案を募集しています。

私たちの非営利団体は、2基のRTX 3090を搭載したAIサーバーを持っていて、ついに複数ユーザー向けのパフォーマンスをより良くするためにvLLMへ切り替えました。

こちらが私のdocker composeファイルです:

services: vllm: image: vllm/vllm-openai:latest container_name: vllm deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] environment: - VLLM_API_KEY=my_very_secret_key_was_scrubbed volumes: - /opt/.cache/huggingface:/root/.cache/huggingface ports: - "8000:8000" ipc: host # テンソル並列化中の共有メモリのボトルネックを防ぐ command: > --model cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit --tensor-parallel-size 2 --max-model-len 65536 --gpu-memory-utilization 0.85 --enable-prefix-caching --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --max-num-seqs 32 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' restart: unless-stopped 

これにはとても満足していますが、改善の提案があれば教えてください!

こちらが私のllama-benchyの結果です:

model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit pp2048 @ d2000 5463.38 ± 111.87 748.82 ± 14.93 741.48 ± 14.93 748.93 ± 14.93
cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit tg32 @ d2000 103.13 ± 22.06 112.49 ± 24.41
cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit pp2048 @ d32768 5178.25 ± 25.55 6731.33 ± 33.06 6724.00 ± 33.06 6731.41 ± 33.05
cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit tg32 @ d32768 25.65 ± 1.43 27.93 ± 1.52
cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit pp2048 @ d63000 4534.72 ± 42.10 14353.15 ± 133.93 14345.82 ± 133.93 14353.26 ± 133.94
cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit tg32 @ d63000 12.85 ± 3.50 14.45 ± 3.21
submitted by /u/Zyj
[リンク] [コメント]