これらの両方の構成で収まる最大の密なモデル(スパースでもMoEでもない)の推論性能を比較した人はいますか?
* PCIe Gen5 x16 バス上で、2x RTX Pro 6000 Blackwell 96GB(ワークステーション、Max-Qではない):NVFP4 量子化
* トリプル NV-Link 接続、2x A100 80GB Ampere:W4A16 量子化
[リンク] [コメント]
Reddit r/LocalLLaMA / 2026/3/29
これらの両方の構成で収まる最大の密なモデル(スパースでもMoEでもない)の推論性能を比較した人はいますか?
* PCIe Gen5 x16 バス上で、2x RTX Pro 6000 Blackwell 96GB(ワークステーション、Max-Qではない):NVFP4 量子化
* トリプル NV-Link 接続、2x A100 80GB Ampere:W4A16 量子化