デュアルRTX 5060 Ti 16GBでvLLMにQwen3.6 27Bを載せる：〜60トークン/秒、204kコンテキスト動作

Reddit r/LocalLLaMA / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

テスターはvLLM nightlyでデュアルRTX 5060 Ti 16GB上にQwen3.6 27Bをローカル実行し、文脈長や推測デコード設定に応じておおむね約60 tokens/sの性能を報告しています。
vLLMは tensor-parallel size=2、fp8のKVキャッシュ、modeloptによる量子化、maxモデル長204,800の設定で構成されており、204kコンテキストは動きますが32GB総VRAMでは余裕がほとんどありません。
性能テストでは、8K文脈でMTP n=1が約50〜52 tok/s、MTP n=3で約62〜66 tok/sに改善し、32K文脈でも約59〜66 tok/sと同程度です。
204kのプリフィルやニードル/リトリーバルのスモークテストは成功し（168kトークン後のテストは約256秒）、204800ウィンドウを超えるプロンプトは正しく拒否されます。
注意点として、204kではヘッドルームが小さいこと、gpu_memory_utilizationは0.94だとKV割り当てが失敗するため0.95程度が必要なこと、起動にコンパイル/オートチューニングで数分かかること、さらにmax_num_seqs=1のため高い同時実行には向かないことが挙げられています。

かなり非標準なローカル環境でQwen3.6 27Bをテストしていて、最新の16GB Blackwellカードを検討している人に役立つかもしれないと思い、数値を共有します。

ハードウェア:

2x RTX 5060 Ti 16GB
総VRAM 32GB
Proxmox LXC
16 vCPU
約60GB RAM
CUDA 13 / Torch 2.11 nightly
vLLM nightly: 0.19.2rc1.dev
モデル: sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP

vLLM起動シェイプ:

vllm serve sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP \
 --served-model-name qwen36-nvfp4-mtp \
 --tensor-parallel-size 2 \
 --max-model-len 204800 \
 --max-num-batched-tokens 8192 \
 --max-num-seqs 1 \
 --gpu-memory-utilization 0.95 \
 --kv-cache-dtype fp8 \
 --quantization modelopt \
 --speculative-config '{"method":"mtp","num_speculative_tokens":3}' \
 --reasoning-parser qwen3 \
 --language-model-only \
 --generation-config vllm \
 --disable-custom-all-reduce \
 --attention-backend TRITON_ATTN

これまでのパフォーマンス:

8Kコンテキスト、MTP n=1: 約50–52 tok/s
8Kコンテキスト、MTP n=3: 約62–66 tok/s
32Kコンテキスト: 約59–66 tok/s
204800コンテキスト開始は動作するが、かなりきつい
204kでアイドルVRAM: GPUあたり約14.45GiB
168kトークンのプリフィル後: GPUあたり約15.65GiB
168kトークンのニードル/リトリーバルのスモークテストは約256sでパス
ほぼ限界テストで、204800ウィンドウを超えるプロンプト+出力は正しく拒否

Thinkingモードも動きますが、十分な出力バジェットを与える必要があります。max_tokensが小さいと、Qwenが推論のために上限いっぱいまで使ってしまい、最終的なコンテンツが返ってこないことがあります。小さなプロンプトなら1024+で問題ありませんが、実際の推論タスクでは4096–8192のほうが安全です。

注意点:

204kコンテキストは2x16GBの環境だとギリギリのラインです。
gpu_memory_utilization=0.94ではKVの割り当てに失敗; 0.95だと成功しました。
コンパイル/オートチューニングのため、起動に数分かかります。
ログには起動中のFlashInferオートチューナーによるOOMのフォールバックが出ますが、サーバはそれでも正常になります。
テキストパスではTRITON_ATTNのほうがうまくいきました。
高い同時実行向けの設定ではありません: max_num_seqs=1。

総評: 正しいチェックポイント/ランタイムの組み合わせを使えば、デュアル5060 Ti 16GBはQwen3.6 27Bに意外と実用的だと思います。余裕はありませんが、ちゃんと動きます。

submitted by /u/do_u_think_im_spooky
[link] [comments]

Black Hat USA

AI Business

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

Dev.to

デュアルRTX 5060 Ti 16GBでvLLMにQwen3.6 27Bを載せる：〜60トークン/秒、204kコンテキスト動作

要点

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力