AMD、AIに関心のある企業向けにスロット型GPUを投入

The Register / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

要点

  • AMDは、AIワークロードを試す企業顧客を対象にしたスロット型のPCIeベースGPU「MI350P」を発表した。
  • MI350Pは144GBのHBM3eメモリを搭載し、FP4計算で最大4.6テラFLOPSとされている。
  • AMDは、デュアルスロットの筐体を、完全にデータセンター向けGPU基盤を導入せずにAIアクセラレーションを追加する現実的な手段として位置づけている。
  • 今回の発表は、企業の導入ニーズに合わせたAIハードウェアの選択肢を広げるというAMDの方針を示すものだ。

システム

AMD、AIに関心のある企業向けに新しい増設スロット対応GPUを投入

MI350PはHBM3eを144 GB搭載し、デュアルスロットカードにFP4換算で最大4.6 teraFLOPSの実力を詰め込む

Tobias Mann Tobias Mann システムエディター
Published

AMDは、従来の空冷サーバーにそのまま差し込める、より手頃なデータセンターGPUで、エンタープライズのAI顧客を取り込もうとしている。

木曜日に発表されたMI350Pは、House of Zen(ザンの家)としては、MI210  2022年に登場して以来となる、PCIeベースのInstinctアクセラレータだ。

これまでAMDの最上位GPUは、8基単位で提供され、また多くのサーバープラットフォームに対応していない、ソケット式のOAMモジュールを使うものばかりだった。

REG AD

それに対して、MI350Pは必要な電力と十分なエアフローを備えた、ほぼあらゆる19インチ筐体(ピザ箱)に挿し込める。初めてオンプレのAIに触れる企業にとって、導入しやすい商材になっているわけだ。

REG AD

600ワットのデュアルスロットカードは、基本的にはMI350Xを半分に切り詰めたものだ。つまり、CNDAベースのGPUはFP4で4.6 petaFLOPSの計算性能と、HBM3e 4スタックにまたがる144 GBのVRAMを搭載し、控えめながらも4 TB/sのメモリ帯域幅を実現する。

AMDはMI350Pを1基から8基までの構成に対応しているが、これらのカードには高速な相互接続がないため、チップ間通信はPCIe 5.0の速度(128 GB/s)に制限される。その結果、より大規模なモデルでは潜在能力が制約される可能性がある。

AMDはカードの価格をまだ公表していないが、少なくとも紙の上では、MI350PはNvidiaの H200 NVL、または RTX Pro 6000 BlackwellのPCIeカードのいずれとも競争できる位置にある。

141 GBのH200と比べると、MI350PはFP8における最大ピーク性能で約38%高い一方、VRAMの容量面では僅かな優位にとどまる。 

ただし、メモリ帯域幅の面ではH200が優位に立つ。MI350Pが4つのHBM3eスタックなのに対し、H200は6つ搭載しており、約2年近く前のカードであるにもかかわらず、そのメモリは依然として約20%高速だ。

NvidiaのH200はNVLinkを介した高速なチップ間通信にも対応しているが、MI350PはAMDの同等のInfinity Fabric相互接続を使っていない。 

とはいえ、ここまでの話は「市場にまだH200 NVLが見つかる」ことが前提になる。

昨年の夏以降、NvidiaはRTX Pro 6000 Serverカードをエンタープライズ顧客に向けて推してきた。執筆時点では、このカードはPCIeフォームファクタで提供されるNvidiaの最も強力なBlackwellベースのアクセラレータだ。

REG AD

RTX Pro 6000と比べると、MI350Pの価格は性能よりも大きな要因になり始める。受動冷却器をアクティブ方式に置き換えたRTX Proのワークステーション版は、1枚あたり8,000〜10,000ドルで売れるのが常で、結果としてNvidiaの、より手頃なデータセンター向けGPUの1つになっている。

価格がどのように着地するか次第では、AMDは競争力を保つためにかなり強く押し込む必要があるかもしれない。

とはいえ、MI350Pはそれでもよりスペックの高い部品だ。RTX Proよりもピークのフロップスが2.3倍高く、メモリ帯域幅が2.5倍、そしてvRANが50%多い。

返却形式: {"translated": "翻訳されたHTML"}
AMD MI350P Nvidia H200 NVL Nvidia RTX Pro 6000 Server
BF16 1,150 TFLOPS 836 TFLOPS 500 TFLOPS
FP16 1,150 TFLOPS 836 TFLOPS 500 TFLOPS
FP8 2,300 TFLOPS 1,671 TFLOPS 1,000 TFLOPS
MXFP8 2,300 TFLOPS - 1,000 TFLOPS
MXFP4 4,600 TFLOPS - 2,000 TFLOPS
メモリ容量 144 GB HBM3E 141 GB HBM3e 96 GB GDDR7
メモリ帯域幅(BW) 4.0 TB/s 4.8 TB/s 1.6 TB/s
GPUインスタンス 最大4基(各36GB) 最大7基(各16.5GB) 最大4基(各24GB)
GPUスケールアップ相互接続 非対応 900 GB/s(GPUあたり)の2-wayまたは4-way NVLinkブリッジ 非対応
製品FF FHFLデュアルスロット 空冷 FHFLデュアルスロット 空冷 FHFLデュアルスロット 空冷
最大総ボード電力(TBP) 600W(450Wに設定可能) 600W(設定可能) 600W(設定可能)
PCIeホスト x16 PCIe Gen 5(128GB/s) x16 PCIe Gen 5(128GB/s) x16 PCIe Gen 5(128GB/s)

さて、これはすべてピークFLOPSとメモリ帯域幅を前提としていますが、それが現実的であることはめったにありません。AIワークロードで使われるテンソルは、チップから最大限のFLOPSを絞り出すための理想的な形状であることはほとんどありません。そのため、最大達成可能な行列乗算FLOPS(MAMF)と、Babel Streamのメモリ帯域幅ベンチマークを、AIテストスイートの一部として実行しています.

AMDは、ピークFLOPSが現実の性能にきれいに結びつくわけではないことを理解しているようです。そして、出版前にEl Reg(※社内表記:El Reg)と共有されたマーケティング資料では、MI350Pの理論性能を、その実際に提供される性能と比較していました。

MI350P 実提供値(TFLOPS) ピーク(TFLOPS)
BF16 713 1150
FP16 672 1150
FP8 1529 2300
MXFP8 1327 2300
MXFP6 1804 4600
MXFP4 2299 4600
メモリ容量 144 GB HBM3E 144 GB HBM3E
メモリ帯域幅(BW) 3.6 TB/s 4.0 TB/s

Nvidiaやその他のメーカーも、アクセラレータの性能主張に関して同様の取り組みを採用してくれるとありがたいのですが、これを測定する最善の方法について全員が合意するのは、たぶん簡単ではないだろうという気がします。

MI350Pの発表は、AMDが(コードネーム:Helios)としている、自社初のラックスケール・コンピュート・プラットフォームによって、まったく別で、しかもおそらくより収益性の高い領域に取り組もうとしているタイミングでもあります。

このシステムは今年後半に投入予定で、主に大規模なハイパースケールおよびネオクラウドの導入を狙っています。このシステムには、刷新されたMI455X GPUを72基搭載し、単一のダブル幅OCPラックに収められており、巨大なアクセラレータのように振る舞います。

REG AD

このプラットフォームは、AMDがNvidiaのNVL72ラックに挑む初めての取り組みです。Nvidiaは、ブラックウェル世代とほぼ同時期に約2年前にそれを投入しました。 ®