NVLinkを試してみたところ、生成速度においてもかなり意味のある差が出て驚きました。
同じPLXチップがなぜ最も遅いのか疑問に思う方へ。標準ドライバーでは、コンシューマーGPUはPCIe経由で直接互いに通信できず、同じx16リンクをCPUへ奪い合っている状態です。(実質的にそれぞれx8 PCIeリンクとなる)
2枚の3090 - Qwen3.5 27b fp8 - [NVLink装着 - 異なるCPU]:
--- 単一生成(mtp 2) ---
トークン : 1024
時間 : 12.90秒
速度 : 79.4 tok/s
--- 同時生成 (n=20) ---
合計トークン : 20480
実時間 : 29.54秒
スループット : 693.2 tok/s(合計)
--- プレフィル / TTFT(目標約8000入力トークン) ---
入力 : 15381トークン(サーバーから)
TTFT : 7053 ms(合計7073ms - 約20ms生成)
プレフィル: 2,181 tok/s
2枚の3090 - Qwen3.5 27b fp8 - [NVLinkなし - 異なるPLXチップ、同じCPU]:
--- 単一生成 ---
トークン : 1024
時間 : 13.78秒
速度 : 74.3 tok/s
--- 同時生成 (n=20) ---
合計トークン : 20480
実時間 : 37.80秒
スループット : 541.8 tok/s(合計)
--- プレフィル / TTFT(目標約8000入力トークン) ---
入力 : 15368トークン(サーバーから)
TTFT : 9165 ms(合計9186ms - 約21ms生成)
プレフィル: 1,677 tok/s
2枚の3090 - Qwen3.5 27b fp8 - [NVLinkなし - 異なるCPU]:
--- 単一生成 ---
トークン : 1024
時間 : 13.95秒
速度 : 73.4 tok/s
--- 同時生成 (n=20) ---
合計トークン : 20480
実時間 : 37.86秒
スループット : 541.0 tok/s(合計)
--- プレフィル / TTFT(目標約8000入力トークン) ---
入力 : 15442トークン(サーバーから)
TTFT : 9219 ms(合計9240ms - 約21ms生成)
プレフィル: 1,675 tok/s
2枚の3090 - Qwen3.5 27b fp8 - [NVLinkなし - 同じPLXチップ]:
--- 単一生成(mtp 2)---
トークン : 1024
時間 : 14.58秒
速度 : 70.2 tok/s
--- 同時生成 (n=20) ---
合計トークン : 20480
実時間 : 41.56秒
スループット : 492.8 tok/s(合計)
--- プレフィル / TTFT(目標約8000入力トークン) ---
入力 : 15287トークン(サーバーから)
TTFT : 10955 ms(合計10977ms - 約22ms生成)
プレフィル: 1,395 tok/s

