システム
AMD、AIに関心のある企業向けに新しい増設スロット対応GPUを投入
MI350PはHBM3eを144 GB搭載し、デュアルスロットカードにFP4換算で最大4.6 teraFLOPSの実力を詰め込む
AMDは、従来の空冷サーバーにそのまま差し込める、より手頃なデータセンターGPUで、エンタープライズのAI顧客を取り込もうとしている。
木曜日に発表されたMI350Pは、House of Zen(ザンの家)としては、MI210 が 2022年に登場して以来となる、PCIeベースのInstinctアクセラレータだ。
これまでAMDの最上位GPUは、8基単位で提供され、また多くのサーバープラットフォームに対応していない、ソケット式のOAMモジュールを使うものばかりだった。
それに対して、MI350Pは必要な電力と十分なエアフローを備えた、ほぼあらゆる19インチ筐体(ピザ箱)に挿し込める。初めてオンプレのAIに触れる企業にとって、導入しやすい商材になっているわけだ。
600ワットのデュアルスロットカードは、基本的にはMI350Xを半分に切り詰めたものだ。つまり、CNDAベースのGPUはFP4で4.6 petaFLOPSの計算性能と、HBM3e 4スタックにまたがる144 GBのVRAMを搭載し、控えめながらも4 TB/sのメモリ帯域幅を実現する。
AMDはMI350Pを1基から8基までの構成に対応しているが、これらのカードには高速な相互接続がないため、チップ間通信はPCIe 5.0の速度(128 GB/s)に制限される。その結果、より大規模なモデルでは潜在能力が制約される可能性がある。
AMDはカードの価格をまだ公表していないが、少なくとも紙の上では、MI350PはNvidiaの H200 NVL、または RTX Pro 6000 BlackwellのPCIeカードのいずれとも競争できる位置にある。
141 GBのH200と比べると、MI350PはFP8における最大ピーク性能で約38%高い一方、VRAMの容量面では僅かな優位にとどまる。
ただし、メモリ帯域幅の面ではH200が優位に立つ。MI350Pが4つのHBM3eスタックなのに対し、H200は6つ搭載しており、約2年近く前のカードであるにもかかわらず、そのメモリは依然として約20%高速だ。
NvidiaのH200はNVLinkを介した高速なチップ間通信にも対応しているが、MI350PはAMDの同等のInfinity Fabric相互接続を使っていない。
とはいえ、ここまでの話は「市場にまだH200 NVLが見つかる」ことが前提になる。
昨年の夏以降、NvidiaはRTX Pro 6000 Serverカードをエンタープライズ顧客に向けて推してきた。執筆時点では、このカードはPCIeフォームファクタで提供されるNvidiaの最も強力なBlackwellベースのアクセラレータだ。
RTX Pro 6000と比べると、MI350Pの価格は性能よりも大きな要因になり始める。受動冷却器をアクティブ方式に置き換えたRTX Proのワークステーション版は、1枚あたり8,000〜10,000ドルで売れるのが常で、結果としてNvidiaの、より手頃なデータセンター向けGPUの1つになっている。
価格がどのように着地するか次第では、AMDは競争力を保つためにかなり強く押し込む必要があるかもしれない。
とはいえ、MI350Pはそれでもよりスペックの高い部品だ。RTX Proよりもピークのフロップスが2.3倍高く、メモリ帯域幅が2.5倍、そしてvRANが50%多い。
| AMD MI350P | Nvidia H200 NVL | Nvidia RTX Pro 6000 Server | |
|---|---|---|---|
| BF16 | 1,150 TFLOPS | 836 TFLOPS | 500 TFLOPS |
| FP16 | 1,150 TFLOPS | 836 TFLOPS | 500 TFLOPS |
| FP8 | 2,300 TFLOPS | 1,671 TFLOPS | 1,000 TFLOPS |
| MXFP8 | 2,300 TFLOPS | - | 1,000 TFLOPS |
| MXFP4 | 4,600 TFLOPS | - | 2,000 TFLOPS |
| メモリ容量 | 144 GB HBM3E | 141 GB HBM3e | 96 GB GDDR7 |
| メモリ帯域幅(BW) | 4.0 TB/s | 4.8 TB/s | 1.6 TB/s |
| GPUインスタンス | 最大4基(各36GB) | 最大7基(各16.5GB) | 最大4基(各24GB) |
| GPUスケールアップ相互接続 | 非対応 | 900 GB/s(GPUあたり)の2-wayまたは4-way NVLinkブリッジ | 非対応 |
| 製品FF | FHFLデュアルスロット 空冷 | FHFLデュアルスロット 空冷 | FHFLデュアルスロット 空冷 |
| 最大総ボード電力(TBP) | 600W(450Wに設定可能) | 600W(設定可能) | 600W(設定可能) |
| PCIeホスト | x16 PCIe Gen 5(128GB/s) | x16 PCIe Gen 5(128GB/s) | x16 PCIe Gen 5(128GB/s) |
さて、これはすべてピークFLOPSとメモリ帯域幅を前提としていますが、それが現実的であることはめったにありません。AIワークロードで使われるテンソルは、チップから最大限のFLOPSを絞り出すための理想的な形状であることはほとんどありません。そのため、最大達成可能な行列乗算FLOPS(MAMF)と、Babel Streamのメモリ帯域幅ベンチマークを、AIテストスイートの一部として実行しています.
AMDは、ピークFLOPSが現実の性能にきれいに結びつくわけではないことを理解しているようです。そして、出版前にEl Reg(※社内表記:El Reg)と共有されたマーケティング資料では、MI350Pの理論性能を、その実際に提供される性能と比較していました。
| MI350P | 実提供値(TFLOPS) | ピーク(TFLOPS) |
|---|---|---|
| BF16 | 713 | 1150 |
| FP16 | 672 | 1150 |
| FP8 | 1529 | 2300 |
| MXFP8 | 1327 | 2300 |
| MXFP6 | 1804 | 4600 |
| MXFP4 | 2299 | 4600 |
| メモリ容量 | 144 GB HBM3E | 144 GB HBM3E |
| メモリ帯域幅(BW) | 3.6 TB/s | 4.0 TB/s |
Nvidiaやその他のメーカーも、アクセラレータの性能主張に関して同様の取り組みを採用してくれるとありがたいのですが、これを測定する最善の方法について全員が合意するのは、たぶん簡単ではないだろうという気がします。
MI350Pの発表は、AMDが(コードネーム:Helios)としている、自社初のラックスケール・コンピュート・プラットフォームによって、まったく別で、しかもおそらくより収益性の高い領域に取り組もうとしているタイミングでもあります。
このシステムは今年後半に投入予定で、主に大規模なハイパースケールおよびネオクラウドの導入を狙っています。このシステムには、刷新されたMI455X GPUを72基搭載し、単一のダブル幅OCPラックに収められており、巨大なアクセラレータのように振る舞います。
このプラットフォームは、AMDがNvidiaのNVL72ラックに挑む初めての取り組みです。Nvidiaは、ブラックウェル世代とほぼ同時期に約2年前にそれを投入しました。 ®




