デュアルRTX 5060 Ti 16GBでvLLMにQwen3.6 27Bを載せる:〜60トークン/秒、204kコンテキスト動作

Reddit r/LocalLLaMA / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • テスターはvLLM nightlyでデュアルRTX 5060 Ti 16GB上にQwen3.6 27Bをローカル実行し、文脈長や推測デコード設定に応じておおむね約60 tokens/sの性能を報告しています。
  • vLLMは tensor-parallel size=2、fp8のKVキャッシュ、modeloptによる量子化、maxモデル長204,800の設定で構成されており、204kコンテキストは動きますが32GB総VRAMでは余裕がほとんどありません。
  • 性能テストでは、8K文脈でMTP n=1が約50〜52 tok/s、MTP n=3で約62〜66 tok/sに改善し、32K文脈でも約59〜66 tok/sと同程度です。
  • 204kのプリフィルやニードル/リトリーバルのスモークテストは成功し(168kトークン後のテストは約256秒)、204800ウィンドウを超えるプロンプトは正しく拒否されます。
  • 注意点として、204kではヘッドルームが小さいこと、gpu_memory_utilizationは0.94だとKV割り当てが失敗するため0.95程度が必要なこと、起動にコンパイル/オートチューニングで数分かかること、さらにmax_num_seqs=1のため高い同時実行には向かないことが挙げられています。

かなり非標準なローカル環境でQwen3.6 27Bをテストしていて、最新の16GB Blackwellカードを検討している人に役立つかもしれないと思い、数値を共有します。

ハードウェア:

  • 2x RTX 5060 Ti 16GB
  • 総VRAM 32GB
  • Proxmox LXC
  • 16 vCPU
  • 約60GB RAM
  • CUDA 13 / Torch 2.11 nightly
  • vLLM nightly: 0.19.2rc1.dev
  • モデル: sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP

vLLM起動シェイプ:

vllm serve sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP \
 --served-model-name qwen36-nvfp4-mtp \
 --tensor-parallel-size 2 \
 --max-model-len 204800 \
 --max-num-batched-tokens 8192 \
 --max-num-seqs 1 \
 --gpu-memory-utilization 0.95 \
 --kv-cache-dtype fp8 \
 --quantization modelopt \
 --speculative-config '{"method":"mtp","num_speculative_tokens":3}' \
 --reasoning-parser qwen3 \
 --language-model-only \
 --generation-config vllm \
 --disable-custom-all-reduce \
 --attention-backend TRITON_ATTN 

これまでのパフォーマンス:

  • 8Kコンテキスト、MTP n=1: 約50–52 tok/s
  • 8Kコンテキスト、MTP n=3: 約62–66 tok/s
  • 32Kコンテキスト: 約59–66 tok/s
  • 204800コンテキスト開始は動作するが、かなりきつい
  • 204kでアイドルVRAM: GPUあたり約14.45GiB
  • 168kトークンのプリフィル後: GPUあたり約15.65GiB
  • 168kトークンのニードル/リトリーバルのスモークテストは約256sでパス
  • ほぼ限界テストで、204800ウィンドウを超えるプロンプト+出力は正しく拒否

Thinkingモードも動きますが、十分な出力バジェットを与える必要があります。max_tokensが小さいと、Qwenが推論のために上限いっぱいまで使ってしまい、最終的なコンテンツが返ってこないことがあります。小さなプロンプトなら1024+で問題ありませんが、実際の推論タスクでは4096–8192のほうが安全です。

注意点:

  • 204kコンテキストは2x16GBの環境だとギリギリのラインです。
  • gpu_memory_utilization=0.94ではKVの割り当てに失敗; 0.95だと成功しました。
  • コンパイル/オートチューニングのため、起動に数分かかります。
  • ログには起動中のFlashInferオートチューナーによるOOMのフォールバックが出ますが、サーバはそれでも正常になります。
  • テキストパスではTRITON_ATTNのほうがうまくいきました。
  • 高い同時実行向けの設定ではありません: max_num_seqs=1

総評: 正しいチェックポイント/ランタイムの組み合わせを使えば、デュアル5060 Ti 16GBはQwen3.6 27Bに意外と実用的だと思います。余裕はありませんが、ちゃんと動きます。

submitted by /u/do_u_think_im_spooky
[link] [comments]