| 最近、2枚の48GB AMD W7800カードを購入しました。1枚あたり€1,475 + VAT で、遅いが非常に高価なRAMを使うよりも良い取引のように見えました。 864GB/sec vs. 1,792GB/sec は大きな差ですが、このセットアップでは VRAM に Deepseek と GLM 5 を約 25-30 トークン/秒 で収めることができます。むしろ学術的なテストに近い。 要点に入ろう:RTX 6000ではCUDA、AMDでは ROCm を使用して、2枚のカードの秒あたりトークン数を比較しました。 LM Studio で同じプロンプトを使用して GPT120b を使う場合(llamacpp ではより多くのトークンが得られたでしょうが、それは別の話です): 87.45 トークン/秒 ROCm 177.74 トークン/秒 CUDA 比を取ると、次のようになります 864/1792=0.482 87.45/177.74=0.492 この非常に経験的な作業は、VRAM の速度が実質的にすべてであることを明確に示しています。比はVRAM自体の速度に比例しているためです。 「RTX 5060Ti に 16GB の RAM は十分ですか?」という質問をよく見かけるので、この投稿を書いています。448GB/sec なら、300W を必要とする 48GB W7800 の半分の速さで動作します。RTX 3090 24GB は 936GB/sec を持ち、わずかに速く動作します。 ただし、3枚のカードを組み合わせると、速度は最も遅いカードに合わせるのではなく、平均値に近づく傾向があります。したがって Vulkan を使用すると 130-135 トークン/秒程度です。 結論としては、メモリ速度を重視してください。ルービンが 22TB/sec を持つと、GTP120b で約 2000 トークン/秒程度が見られるでしょう…… ただし、それは W7800 のように €1,475 + VAT にはならないと確信しています。 [リンク] [コメント] |
メモリ速度は全てを決定づけるのか? RTX 6000 96GB と AMD W7800 48GB ×2 のクイック比較
Reddit r/LocalLLaMA / 2026/3/17
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage
要点
- この投稿は RTX 6000 96GB(864 GB/s)と AMD W7800 48GB GPU を2枚(合計 1792GB/s)を比較し、メモリ帯域幅が AI ワークロードの決定要因の要となると主張している。
- GPT-120b を用いた実測テストで、ROCm が 87.45 トークン/秒、CUDA が 177.74 トークン/秒を報告しており、VRAM 帯域幅の比率とほぼ一致することから、VRAM の速度がスループットを左右することを示唆している。
- 3枚のGPUを使用すると、スループットは最も遅いカードに従うのではなく平均値に近づく。Vulkan ではおおよそ 130–135 トークン/秒となり、メモリ速度がボトルネックであることを補強している。
- 著者はトークンのスループットにとってメモリ速度がほぼ全てであると結論づけ、はるかに高い帯域幅(例: 22 TB/s)が GPT-120b を約 2000 トークン/秒へ押し上げ得る可能性さえあると推測するが、それは W7800 よりもはるかに高コストだと述べている。
- この記事は、GPU メモリ容量に関する一般的な質問(例: RTX 5060ti の 16GB など)にも言及し、帯域幅の議論を現実の AI ワークロードを左右する決定的要因として位置づけている。