かなり非標準なローカル環境でQwen3.6 27Bをテストしていて、最新の16GB Blackwellカードを検討している人に役立つかもしれないと思い、数値を共有します。
ハードウェア:
- 2x RTX 5060 Ti 16GB
- 総VRAM 32GB
- Proxmox LXC
- 16 vCPU
- 約60GB RAM
- CUDA 13 / Torch 2.11 nightly
- vLLM nightly:
0.19.2rc1.dev - モデル:
sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP
vLLM起動シェイプ:
vllm serve sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP \
--served-model-name qwen36-nvfp4-mtp \
--tensor-parallel-size 2 \
--max-model-len 204800 \
--max-num-batched-tokens 8192 \
--max-num-seqs 1 \
--gpu-memory-utilization 0.95 \
--kv-cache-dtype fp8 \
--quantization modelopt \
--speculative-config '{"method":"mtp","num_speculative_tokens":3}' \
--reasoning-parser qwen3 \
--language-model-only \
--generation-config vllm \
--disable-custom-all-reduce \
--attention-backend TRITON_ATTN これまでのパフォーマンス:
- 8Kコンテキスト、MTP n=1: 約50–52 tok/s
- 8Kコンテキスト、MTP n=3: 約62–66 tok/s
- 32Kコンテキスト: 約59–66 tok/s
- 204800コンテキスト開始は動作するが、かなりきつい
- 204kでアイドルVRAM: GPUあたり約14.45GiB
- 168kトークンのプリフィル後: GPUあたり約15.65GiB
- 168kトークンのニードル/リトリーバルのスモークテストは約256sでパス
- ほぼ限界テストで、204800ウィンドウを超えるプロンプト+出力は正しく拒否
Thinkingモードも動きますが、十分な出力バジェットを与える必要があります。max_tokensが小さいと、Qwenが推論のために上限いっぱいまで使ってしまい、最終的なコンテンツが返ってこないことがあります。小さなプロンプトなら1024+で問題ありませんが、実際の推論タスクでは4096–8192のほうが安全です。
注意点:
- 204kコンテキストは2x16GBの環境だとギリギリのラインです。
gpu_memory_utilization=0.94ではKVの割り当てに失敗;0.95だと成功しました。- コンパイル/オートチューニングのため、起動に数分かかります。
- ログには起動中のFlashInferオートチューナーによるOOMのフォールバックが出ますが、サーバはそれでも正常になります。
- テキストパスでは
TRITON_ATTNのほうがうまくいきました。 - 高い同時実行向けの設定ではありません:
max_num_seqs=1。
総評: 正しいチェックポイント/ランタイムの組み合わせを使えば、デュアル5060 Ti 16GBはQwen3.6 27Bに意外と実用的だと思います。余裕はありませんが、ちゃんと動きます。
[link] [comments]



