Nvidia が Blackwell Pro カードの実際の仕様について非常に曖昧であるため、いくつかの捜査を経て、Nvidia B100/B200/B300 チップの実際の理論的テンソルコア(TC)性能を推定することができました。ここにいる億万長者の方々には役に立つと思います。 ;)
B200 にアクセスできる人のこの Reddit ページの数字から:
https://www.reddit.com/r/nvidia/comments/1khwaw5/battle_of_the_giants_nvidia_blackwell_b200_takes/
B200 のコア数は 18944、ブーストクロックは 1965MHz であることが分かります。これにより FP16 テンソルコアの密な演算性能は 1191.2TFLOPS となります。
これらの3つの公式 Nvidia ドキュメントと、私が先ほど得た数値から:
https://cdn.prod.website-files.com/61dda201f29b7efc52c5fbaf/6602ea9d0ce8cb73fb6de87f_nvidia-blackwell-architecture-technical-brief.pdf
https://resources.nvidia.com/en-us-blackwell-architecture|
https://resources.nvidia.com/en-us-blackwell-architecture/blackwell-ultra-datasheet
本質的には、B100 は HBM3e VRAM と FP4 対応を備えた H100 であると推定できます。
B200 は HBM3e を搭載し、FP4 対応を備えた、より大きな Hopper H100 です。
B300 は FP64、TC FP4、TC INT8 を除けば、B200 と全く同じ性能を持ちます。B300 は 5090 で使用されている B200 と B202 の混成のようなものです。FP64 および TC INT8 の性能を 5090 レベルに低下させ、TC FP4 の余地を作ることで、TC FP4 は 50% のブーストを受けるようにしています。これにより TC FP4 密演算性能は、B200 の 9.53PFLOPS に対して 14.29PFLOPS となります。
B300 は B200 に似ていますが、FP4 のブーストを 50% 加えたことで AI ワークロードにはより適しています。ただし FP64 の削減により、科学計算/金融ワークロードには適さなくなっています。
これは blackwell が TC FP4 対応を備えた、より大きな Hopper/Ada にすぎない、という私の理解に合致します。
[リンク] [コメント]