3090 NVLinkテストとQ3.5 27B

Reddit r/LocalLLaMA / 2026/3/11

Developer Stack & InfrastructureTools & Practical Usage

要点

  • ユーザーは2枚のRTX 3090 GPU上でNVIDIA NVLinkを用いてQwen 3.5 27B FP8モデルをテストし、NVLinkなしのセットアップに比べて生成速度が大幅に向上することを確認した。
  • NVLinkは異なるCPU間での直接GPU間通信を可能にし、スループットを向上させトークン生成時間を短縮する。
  • テストでは、特に同一PLXチップや同一CPUを使用したNVLinkなしの構成では、PCIe帯域幅の競合により生成速度が遅くなることが示された。
  • 同時トークン生成スループットは、NVLinkなしで約493~542 tok/sであったのが、NVLinkありでは約693 tok/sに増加し、有意な性能向上を示した。
  • これらの結果は、マルチGPUによるAIモデル推論ワークロードにおけるGPU間通信インフラの重要性を強調している。

NVLinkを試してみたところ、生成速度においてもかなり意味のある差が出て驚きました。

同じPLXチップがなぜ最も遅いのか疑問に思う方へ。標準ドライバーでは、コンシューマーGPUはPCIe経由で直接互いに通信できず、同じx16リンクをCPUへ奪い合っている状態です。(実質的にそれぞれx8 PCIeリンクとなる)

2枚の3090 - Qwen3.5 27b fp8 - [NVLink装着 - 異なるCPU]:
--- 単一生成(mtp 2) ---
トークン : 1024
時間 : 12.90秒
速度 : 79.4 tok/s
--- 同時生成 (n=20) ---
合計トークン : 20480
実時間 : 29.54秒
スループット : 693.2 tok/s(合計)
--- プレフィル / TTFT(目標約8000入力トークン) ---
入力 : 15381トークン(サーバーから)
TTFT : 7053 ms(合計7073ms - 約20ms生成)
プレフィル: 2,181 tok/s

2枚の3090 - Qwen3.5 27b fp8 - [NVLinkなし - 異なるPLXチップ、同じCPU]:
--- 単一生成 ---
トークン : 1024
時間 : 13.78秒
速度 : 74.3 tok/s
--- 同時生成 (n=20) ---
合計トークン : 20480
実時間 : 37.80秒
スループット : 541.8 tok/s(合計)
--- プレフィル / TTFT(目標約8000入力トークン) ---
入力 : 15368トークン(サーバーから)
TTFT : 9165 ms(合計9186ms - 約21ms生成)
プレフィル: 1,677 tok/s

2枚の3090 - Qwen3.5 27b fp8 - [NVLinkなし - 異なるCPU]:
--- 単一生成 ---
トークン : 1024
時間 : 13.95秒
速度 : 73.4 tok/s
--- 同時生成 (n=20) ---
合計トークン : 20480
実時間 : 37.86秒
スループット : 541.0 tok/s(合計)
--- プレフィル / TTFT(目標約8000入力トークン) ---
入力 : 15442トークン(サーバーから)
TTFT : 9219 ms(合計9240ms - 約21ms生成)
プレフィル: 1,675 tok/s

2枚の3090 - Qwen3.5 27b fp8 - [NVLinkなし - 同じPLXチップ]:
--- 単一生成(mtp 2)---
トークン : 1024
時間 : 14.58秒
速度 : 70.2 tok/s
--- 同時生成 (n=20) ---
合計トークン : 20480
実時間 : 41.56秒
スループット : 492.8 tok/s(合計)
--- プレフィル / TTFT(目標約8000入力トークン) ---
入力 : 15287トークン(サーバーから)
TTFT : 10955 ms(合計10977ms - 約22ms生成)
プレフィル: 1,395 tok/s