(ここでも r/LocalLLM でも)マルチGPU構成は複雑で問題があり、通常はコンシューマー向けマザーボードではPCI-E帯域によってボトルネックになる、といったコメントをよく見かけます。
私はRTX 5060 TI 16gbを2枚(そして3枚目を追加する予定)使っていて、PCIeの構成はかなり良くありません。GPU0はフルのx16 Gen 5スロット上にあります(8xで動作していて、これは5060が到達できる最大の速さです)が、GPU1はチップセット経由でPCI-E 4.0 x4に固定されています。
私は(AIの助けを借りて)プリフィルのベンチマークを実行する小さなスクリプトを作り(TP=2でvLLMを使用)、その間にPCIe帯域の消費量を監視しました。
32kのコンテキストで実行しました(ベンチマークのためにより高い量子化が可能な程度に低くはしたものの、処理を飽和させるには十分な大きさです)。
プリフィル中に消費されたピーク帯域は3〜4 GB/sで、これは弱い4.0 x4リンクの40〜50%程度しかありません。量子化が「速い」(つまり高い)ほど帯域が増えるようでした(たぶん、5060はVRAM帯域または演算がボトルネックになっているということだと思います)。
いくつかのプリフィルレート(TP=2):
QuantTrio/gemma-4-31B-it-AWQ-6Bit · Hugging Face: 約840-850 t/s
LilaRest/gemma-4-31B-it-NVFP4-turbo · Hugging Face: 約1500 t/s
sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP · Hugging Face: 1600-1700 t/s
3枚目の5060は(NVME -> CPU接続のM2スロット経由でPCIe 5.0 x4アダプタを使って)帯域の面でボトルネックにならずに安全に追加できそうだ、というのは現実的だと思えます。ただし4枚目の追加はおそらくこのマザーボードでは厳しいでしょう。というのも、それにはすでに制限要因になっているチップセットのレーンをさらに使う必要があるからです。
この投稿はFYIとしての意味合いもあるのだと思いますが、同時に「こちらが何か明らかなものを見落としているのでは?」という質問でもありますかね。:)
[link] [comments]




