RTX 5060 Tiを2枚：Qwen 3.6 27B／35B向けにもっと良い構成はある？

Reddit r/LocalLLaMA / 2026/4/28

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

ユーザーは、デュアルのRTX 5060 Ti 16GB環境でQwen 3.6 27B（dense）とQwen 3.6 35B A3B（MoE、3B活性化）のために量子化や推測デコード（speculative decoding）の各種設定を試し、他の環境でも同様の結果が出ているのか、追加の調整余地があるのかを尋ねています。
最初に行った推測デコードは非常に低い性能だったため、PCIe帯域に起因する制約ではないかと推測しています。
Qwen 3.6 27Bの結果として、llama-benchyの測定ではvLLMのNVFP4-MTP構成が、挙げられた実行の中で最も高いスループット（PP約1963 t/s、TG約38.4 t/s）を示した一方、TTFTは比較的高い値になっています。
同じ27Bの表では、LorbusやIntelのAutoRoundを使ったvLLM設定はPPが大きく低下（約1087〜1067 t/s程度）し、TTFTも高めで、ik-llama.cpp（llama.cpp側）の量子化／KV構成ではPPが改善するケースがあるものの、TTFTとのトレードオフが生じがちであることが読み取れます。
ユーザーはベンチ手順（レイテンシモード生成、no-cache、pp/tg/depth/runsなどのパラメータ）も提示しており、pp/tgを大きくして結果を再検証する予定です。

私は、2 x 5060 TI 16 GB の構成で Qwen 3.6 27B と 35 A3B に対して、いろいろなセットアップやquant等を試してきました。似たような構成の方々も同様の数値が出ているのでしょうか？それとも、まだ調整できる余地があるのでしょうか？

これまでのところ、推測デコード（speculative decoding）の試みはすべて失敗しており、性能が非常に悪いです。PCI-E の帯域制限によるものだとされているようです。

llama-benchy 0.3.5, --pp 4096 --tg 128 --depth 0 --runs 3 --latency-mode generation --no-cache (about to rerun again with bigger pp / tg) で測定

Qwen3.6-27B（Dense） - ベンチマーク結果

エンジン	モデル	構成	PP（t/s）	TG（t/s）	TTFT（ms）
vLLM	NVFP4-MTP	TP2-PP1、specなし	1963	38.4	2182
vLLM	Lorbus AutoRound	TP2-PP1、specなし	1087	46.9	3792
vLLM	Lorbus AutoRound	TP2-PP1、ngram n=3	1067	40.2	3914
vLLM	Lorbus AutoRound	TP2-PP1、MTP n=3	1044	27.5	4008
vLLM	Intel AutoRound	TP2-PP1、specなし	1088	46.8	3833
vLLM	Lorbus AutoRound	TP1-PP2、specなし	1046	30.2	3995
ik-llama.cpp	DavidAU IQ4_XS	layer、q8_0 KV	1450	28.4	2945
ik-llama.cpp	DavidAU IQ4_XS	tensor、f16 KV	751	38.6	5635
ik-llama.cpp	DavidAU Q5_K_M	layer、q8_0 KV	1300	23.2	3296
ik-llama.cpp	DavidAU Q5_K_M	tensor、f16 KV	718	33.9	5894

Qwen3.6-35B-A3B（MoE、3Bアクティブ） - ベンチマーク結果

エンジン	モデル	構成	PP（t/s）	TG（t/s）	TTFT（ms）
vLLM	NVFP4	TP2-PP1、specなし	6259	116.5	753
vLLM	NVFP4	TP2-PP1、DFlash n=15	5848	38.9	779
ik-llama.cpp	Unsloth Q4_K_XL	layer、q8_0 KV	3545	108.9	1214
ik-llama.cpp	Unsloth IQ4_XS	tensor、f16 KV	2132	99.8	2036

投稿者 /u/ziphnor
[リンク] [コメント]

Black Hat USA

AI Business

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

Sakana AIとGoogleのAI科学者、自律性に差研究の種を生むのは人間

日経XTECH

三井化学が構造式含む文献の調査AIエージェントを本格稼働、1カ月を1日に

日経XTECH

「Dispatch AI」を作りました。よければ見て、感想やコメントをお願いします

Dev.to

RTX 5060 Tiを2枚：Qwen 3.6 27B／35B向けにもっと良い構成はある？

要点

Qwen3.6-27B（Dense） - ベンチマーク結果

Qwen3.6-35B-A3B（MoE、3Bアクティブ） - ベンチマーク結果

関連記事

Black Hat USA

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

Sakana AIとGoogleのAI科学者、自律性に差研究の種を生むのは人間

三井化学が構造式含む文献の調査AIエージェントを本格稼働、1カ月を1日に

「Dispatch AI」を作りました。よければ見て、感想やコメントをお願いします

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Qwen3.6-27B（Dense） - ベンチマーク結果

Qwen3.6-35B-A3B（MoE、3Bアクティブ） - ベンチマーク結果

関連記事

Black Hat USA

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

Sakana AIとGoogleのAI科学者、自律性に差 研究の種を生むのは人間

三井化学が構造式含む文献の調査AIエージェントを本格稼働、1カ月を1日に

「Dispatch AI」を作りました。よければ見て、感想やコメントをお願いします

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

Sakana AIとGoogleのAI科学者、自律性に差研究の種を生むのは人間