誇張されたPCI Express(PCIe)帯域不足の懸念?

Reddit r/LocalLLaMA / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、コンシューマ向けマザーボードでのマルチGPU構成(ローカルLLM)がPCIe帯域でボトルネックになる、という主張をよく目にするため、その前提を実測で確かめようとしている。
  • 2×RTX 5060 Tiを使い、あえて2つ目のGPUを弱い構成(チップセット経由のPCIe 4.0 x4)にしたうえで、vLLMのテンソル並列(TP=2)によるプリフィル・ベンチマークを行い、プリフィル中のPCIe帯域を測定した。
  • 32kコンテキストでもピークのPCIe帯域使用量は約3〜4 GB/sで、PCIe 4.0 x4の理論上限の約40〜50%にとどまった。
  • より高い量子化設定ではスループットが変化するものの、PCIeリンクを飽和させることよりも、モデル側の計算やVRAM挙動などに起因しているように見える。
  • この結果から、CPU接続のM.2スロットを使うNVMe→PCIe 5.0 x4アダプタで3台目の5060を追加してもPCIe帯域で詰まりにくい可能性があり、4台目はチップセットのレーン制約で厳しくなりそうだと述べている。

(ここでも r/LocalLLM でも)マルチGPU構成は複雑で問題があり、通常はコンシューマー向けマザーボードではPCI-E帯域によってボトルネックになる、といったコメントをよく見かけます。

私はRTX 5060 TI 16gbを2枚(そして3枚目を追加する予定)使っていて、PCIeの構成はかなり良くありません。GPU0はフルのx16 Gen 5スロット上にあります(8xで動作していて、これは5060が到達できる最大の速さです)が、GPU1はチップセット経由でPCI-E 4.0 x4に固定されています。

私は(AIの助けを借りて)プリフィルのベンチマークを実行する小さなスクリプトを作り(TP=2でvLLMを使用)、その間にPCIe帯域の消費量を監視しました。

32kのコンテキストで実行しました(ベンチマークのためにより高い量子化が可能な程度に低くはしたものの、処理を飽和させるには十分な大きさです)。

プリフィル中に消費されたピーク帯域は3〜4 GB/sで、これは弱い4.0 x4リンクの40〜50%程度しかありません。量子化が「速い」(つまり高い)ほど帯域が増えるようでした(たぶん、5060はVRAM帯域または演算がボトルネックになっているということだと思います)。

いくつかのプリフィルレート(TP=2):
QuantTrio/gemma-4-31B-it-AWQ-6Bit · Hugging Face: 約840-850 t/s
LilaRest/gemma-4-31B-it-NVFP4-turbo · Hugging Face: 約1500 t/s
sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP · Hugging Face: 1600-1700 t/s

3枚目の5060は(NVME -> CPU接続のM2スロット経由でPCIe 5.0 x4アダプタを使って)帯域の面でボトルネックにならずに安全に追加できそうだ、というのは現実的だと思えます。ただし4枚目の追加はおそらくこのマザーボードでは厳しいでしょう。というのも、それにはすでに制限要因になっているチップセットのレーンをさらに使う必要があるからです。

この投稿はFYIとしての意味合いもあるのだと思いますが、同時に「こちらが何か明らかなものを見落としているのでは?」という質問でもありますかね。:)

submitted by /u/ziphnor
[link] [comments]