私は、2 x 5060 TI 16 GB の構成で Qwen 3.6 27B と 35 A3B に対して、いろいろなセットアップやquant等を試してきました。似たような構成の方々も同様の数値が出ているのでしょうか?それとも、まだ調整できる余地があるのでしょうか?
これまでのところ、推測デコード(speculative decoding)の試みはすべて失敗しており、性能が非常に悪いです。PCI-E の帯域制限によるものだとされているようです。
llama-benchy 0.3.5, --pp 4096 --tg 128 --depth 0 --runs 3 --latency-mode generation --no-cache (about to rerun again with bigger pp / tg) で測定
Qwen3.6-27B(Dense) - ベンチマーク結果
| エンジン | モデル | 構成 | PP(t/s) | TG(t/s) | TTFT(ms) |
|---|---|---|---|---|---|
| vLLM | NVFP4-MTP | TP2-PP1、specなし | 1963 | 38.4 | 2182 |
| vLLM | Lorbus AutoRound | TP2-PP1、specなし | 1087 | 46.9 | 3792 |
| vLLM | Lorbus AutoRound | TP2-PP1、ngram n=3 | 1067 | 40.2 | 3914 |
| vLLM | Lorbus AutoRound | TP2-PP1、MTP n=3 | 1044 | 27.5 | 4008 |
| vLLM | Intel AutoRound | TP2-PP1、specなし | 1088 | 46.8 | 3833 |
| vLLM | Lorbus AutoRound | TP1-PP2、specなし | 1046 | 30.2 | 3995 |
| ik-llama.cpp | DavidAU IQ4_XS | layer、q8_0 KV | 1450 | 28.4 | 2945 |
| ik-llama.cpp | DavidAU IQ4_XS | tensor、f16 KV | 751 | 38.6 | 5635 |
| ik-llama.cpp | DavidAU Q5_K_M | layer、q8_0 KV | 1300 | 23.2 | 3296 |
| ik-llama.cpp | DavidAU Q5_K_M | tensor、f16 KV | 718 | 33.9 | 5894 |
Qwen3.6-35B-A3B(MoE、3Bアクティブ) - ベンチマーク結果
| エンジン | モデル | 構成 | PP(t/s) | TG(t/s) | TTFT(ms) |
|---|---|---|---|---|---|
| vLLM | NVFP4 | TP2-PP1、specなし | 6259 | 116.5 | 753 |
| vLLM | NVFP4 | TP2-PP1、DFlash n=15 | 5848 | 38.9 | 779 |
| ik-llama.cpp | Unsloth Q4_K_XL | layer、q8_0 KV | 3545 | 108.9 | 1214 |
| ik-llama.cpp | Unsloth IQ4_XS | tensor、f16 KV | 2132 | 99.8 | 2036 |
[リンク] [コメント]




