RTX 5060 Tiを2枚:Qwen 3.6 27B/35B向けにもっと良い構成はある?

Reddit r/LocalLLaMA / 2026/4/28

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ユーザーは、デュアルのRTX 5060 Ti 16GB環境でQwen 3.6 27B(dense)とQwen 3.6 35B A3B(MoE、3B活性化)のために量子化や推測デコード(speculative decoding)の各種設定を試し、他の環境でも同様の結果が出ているのか、追加の調整余地があるのかを尋ねています。
  • 最初に行った推測デコードは非常に低い性能だったため、PCIe帯域に起因する制約ではないかと推測しています。
  • Qwen 3.6 27Bの結果として、llama-benchyの測定ではvLLMのNVFP4-MTP構成が、挙げられた実行の中で最も高いスループット(PP約1963 t/s、TG約38.4 t/s)を示した一方、TTFTは比較的高い値になっています。
  • 同じ27Bの表では、LorbusやIntelのAutoRoundを使ったvLLM設定はPPが大きく低下(約1087〜1067 t/s程度)し、TTFTも高めで、ik-llama.cpp(llama.cpp側)の量子化/KV構成ではPPが改善するケースがあるものの、TTFTとのトレードオフが生じがちであることが読み取れます。
  • ユーザーはベンチ手順(レイテンシモード生成、no-cache、pp/tg/depth/runsなどのパラメータ)も提示しており、pp/tgを大きくして結果を再検証する予定です。

私は、2 x 5060 TI 16 GB の構成で Qwen 3.6 27B と 35 A3B に対して、いろいろなセットアップやquant等を試してきました。似たような構成の方々も同様の数値が出ているのでしょうか?それとも、まだ調整できる余地があるのでしょうか?

これまでのところ、推測デコード(speculative decoding)の試みはすべて失敗しており、性能が非常に悪いです。PCI-E の帯域制限によるものだとされているようです。

llama-benchy 0.3.5, --pp 4096 --tg 128 --depth 0 --runs 3 --latency-mode generation --no-cache (about to rerun again with bigger pp / tg) で測定

Qwen3.6-27B(Dense) - ベンチマーク結果

エンジン モデル 構成 PP(t/s) TG(t/s) TTFT(ms)
vLLM NVFP4-MTP TP2-PP1、specなし 1963 38.4 2182
vLLM Lorbus AutoRound TP2-PP1、specなし 1087 46.9 3792
vLLM Lorbus AutoRound TP2-PP1、ngram n=3 1067 40.2 3914
vLLM Lorbus AutoRound TP2-PP1、MTP n=3 1044 27.5 4008
vLLM Intel AutoRound TP2-PP1、specなし 1088 46.8 3833
vLLM Lorbus AutoRound TP1-PP2、specなし 1046 30.2 3995
ik-llama.cpp DavidAU IQ4_XS layer、q8_0 KV 1450 28.4 2945
ik-llama.cpp DavidAU IQ4_XS tensor、f16 KV 751 38.6 5635
ik-llama.cpp DavidAU Q5_K_M layer、q8_0 KV 1300 23.2 3296
ik-llama.cpp DavidAU Q5_K_M tensor、f16 KV 718 33.9 5894

Qwen3.6-35B-A3B(MoE、3Bアクティブ) - ベンチマーク結果

エンジン モデル 構成 PP(t/s) TG(t/s) TTFT(ms)
vLLM NVFP4 TP2-PP1、specなし 6259 116.5 753
vLLM NVFP4 TP2-PP1、DFlash n=15 5848 38.9 779
ik-llama.cpp Unsloth Q4_K_XL layer、q8_0 KV 3545 108.9 1214
ik-llama.cpp Unsloth IQ4_XS tensor、f16 KV 2132 99.8 2036
投稿者 /u/ziphnor
[リンク] [コメント]