2×RTX Pro 6000 vs 2×A100 80GB：denseモデルの推論性能比較

Reddit r/LocalLLaMA / 2026/3/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

ユーザーが「両方の構成に収まる最大級の“dense”モデル」で、2×RTX Pro 6000（Blackwell 96GB、NVFP4量子化）と2×A100 80GB（Ampere、W4A16量子化）の推論性能を比較した事例があるかを質問している。
比較対象は「疎（sparse）やMoEではない最大のdenseモデル」であり、量子化方式やネットワーク構成（PCIe Gen5 x16、NVLink接続）も前提として提示されている。
RTX Pro 6000側はワークステーション用途でMax-Qではない条件、A100側はトリプルNV-Linkでの接続条件が明確にされている。
具体的なベンチマーク結果の有無が争点で、コミュニティでの実測・既知知見の共有を促す内容になっている。

これらの両方の構成で収まる最大の密なモデル（スパースでもMoEでもない）の推論性能を比較した人はいますか？

* PCIe Gen5 x16 バス上で、2x RTX Pro 6000 Blackwell 96GB（ワークステーション、Max-Qではない）：NVFP4 量子化

* トリプル NV-Link 接続、2x A100 80GB Ampere：W4A16 量子化