Nvidiaが規模拡大の追求で「光」を受け入れるまで
GPU王の光学スケールアップへの布石は、避けられないものだった
NvidiaのGB200ラックシステムが大きいと思っていたなら、CEOのジェンセン・フアンはまだ始まったばかりだ。先月のGTCで、世界でもっとも価値の高い企業は、2028年までに1つの巨大なシステムに1000基超のGPUを詰め込むために、フォトニック・インターコネクトを使う計画を明らかにした。
同社は供給網の確保を待ってもいない。GPU大手は過去1か月の間に、マーベル(Marvell)、コヒレント(Coherent)、ルメントゥム(Lumentum)など、こうしたシステムの大規模な導入に向けて、光学およびインターコネクト分野を専門とする企業に数十億ドルを投資してきた。
「私たちのエコシステムにいるすべての皆さんにとって、必要なのはもっと大きなキャパシティです」と、フアン氏はGTC 基調講演 で述べた。「銅のために、もっと大きなキャパシティが必要です。光学のために、もっと大きなキャパシティが必要です。CPOのために、もっと大きなキャパシティが必要です。そしてだからこそ、私たちは皆さんと一緒に、この規模の成長を実現するための基盤づくりに取り組んできたのです。」
とはいえ、ここまでのNvidiaの歩みはもっとずっと前から始まっていた。実際、2022年末にOpenAIがChatGPTを世界に公開するまでに、Nvidiaはすでに自分たちが問題を抱えていることを把握していた。
当時、GPU大手の最も強力なシステムには、せいぜい8基のGPUしか搭載されておらず、AIブームを牽引するモデルを学習させるには何千基も必要だった。Nvidiaには、より大きな箱が必要だったし、少なくとも、数十のチップにまたがって作業を効果的に配分できる、より高速なネットワークが必要だった。
私たちは最初に、この状況がNvidiaのGrace Hopperスーパーチップで垣間見えるのを、2023年に 目にした が、全体像が見えてくるのは2024年の早い時期になってからだった。その年のGTCで発表されたGrace Blackwell NVL72という巨大な 120キロワット級のマシン は、延々と続く配線を含む銅製のバックプレーンを使って、36ノードと72基のGPUを、1つの巨大なAIアクセラレータのように振る舞わせる。
この用途では銅が自然な選択だった、とNvidiaのネットワーキング担当シニアVPであるギラッド・シャイナー(Gilad Shainer)はEl Regに語った。
「銅は最高の接続手段です。使えるのであればね。コスト効率が非常に良く、とても安い。消費電力はゼロです。非常に信頼性が高い。能動部品はありません。」
ただし銅にも欠点はある。1.8 TB/sの時点では、ケーブルはGPU同士が通信する前に数フィートほどしか伸ばせず、信号が劣化してしまった。NVL72のNVSwitchがすべてラックの中央に配置されている理由が気になっているなら、それは配線がそこまで短かったからだ。銅の到達距離が限られていることも意味しており、Nvidiaはできる限り多くのGPUを1つのラックに詰め込む必要があった。
それから2年後の現在、Nvidiaは銅の限界に急速に近づいており、さらに大きなGPUシステムを組み立てたいのであれば、光学(オプティクス)を取り入れる必要が出てきている。
プラガブル問題
ハワイング(Huang)が最初に、オベロン(Oberon)というコードネームのNVL72ラックを披露したとき、2つのアクセラレータを光学的に接続するための、商業的に実行可能な唯一の方法は、プラガブル・オプティクスを使うことだったはずだ。
これらのモジュールはガム1パックほどのサイズで、電気信号を光へ、そして再び電気へ戻すために必要なレーザー、リタイマ(retimers)、デジタル信号処理(DSP)をすべて内蔵している。
プラガブルはデータセンターネットワークでは目新しいものではないが、NvidiaのNVLinkのようなスケールアップの計算ファブリックに用いるとなると、いくつかの問題がある。
帯域幅の1.8 TB/sに到達するために、各ブラックウェル(Blackwell)GPUには18個の800 Gbpsプラガブルが必要だった。アクセラレータ用が9つ、そしてスイッチ用にもう9つだ。単体であれば、こうしたプラガブルは消費電力がそれほど大きくない。約10〜15ワット程度だが、72個のGPU全体に掛け算すると、すぐに膨らんでしまう。
ハワイングが2024年のGTC基調講演で述べたように、オプティクスにはさらに追加で20,000ワットの電力が必要だったはずだ。
しかし、オベロンのラックが最初に公開されてから、多くのことが変わった。CPO(co-packaged optics:コパッケージド・オプティクス)――光学エンジンをスイッチのASICのすぐそばに直接統合する方式――の進歩が、消費電力の低減を後押ししている。
2025年、NvidiaはCPOをSpectrum EthernetおよびQuantum InfiniBandスイッチに直接統合する形で、AIインフラ提供企業としていち早く取り入れた企業の1つになった。(BroadcomベースのMicas Networksも同様の動きをしていた。)
これにより、AIトレーニングクラスタを構築するのに必要なプラガブルの数は大幅に減った。とはいえ、その会社がNVSwitchファブリックにおける光学とCPOの利用について話し始めたのは、もっと最近のことだ。
NVLinkが光へ
2年前、光学的なインターコネクトは電力を食いすぎるとしてあしらっていたにもかかわらず、ハワイングはこの春のGTCで話題を再訪し、Vera RubinのNVL576とRosa FeynmanのNVL1152――フォトニクスによって計算領域を8倍に拡張することになる、2つのマルチラック・システム――を披露した。
NVL576が聞き覚えのある数字なのは、その通りだ。この数字は以前にも登場している。実際、当初のNVL72ラックと並行して、Nvidiaは< a target="_blank" rel="nofollow" href="https://developer.nvidia.com/blog/nvidia-gb200-nvl72-delivers-trillion-parameter-llm-training-and-real-time-inference/#:~:text=Fifth%2Dgeneration%20NVLink%20and%20NVLink%20Switch%20System%20The,communication%20for%20today's%20most%20complex%20large%20models.">ちょうどその数のGPUを搭載する構成を「予告」していた。もっとも、私たちの知る限り、そうしたシステムが実際に野外で(実運用として)配備された例はない。
Nvidiaはまた、Vera Rubin Ultra KyberラックをNVL576のブランドで短期間売り込んだものの、最終的には、個々のGPUダイを単体のアクセラレータとしてカウントしたいわけではないと判断した。
Nvidiaのマーケティングやロードマップが再び変わらない限り、実際のVera Rubin NVL576は、銅と光学インターコネクトの組み合わせを使うことになる。
「『Nvidiaは銅でスケールアップするのか、それとも光でスケールアップするのか』という議論がたくさんあります。でも、私たちは両方やります」と、ハワイングはこのGTC基調講演で述べた。
NvidiaのハイパースケールおよびHPC担当VP、イアン・バック(Ian Buck)によると、ネットワークの最初のレイヤーはラック内で銅のインターコネクトを使う。つまりGPU側に変更は不要だということだ。2層目のスパイン・レイヤーは、プラガブル・モジュールを使う。
どのようなトポロジ(構成)をNvidiaが採用するのかは正確には分からないが、2段(ツーレイヤー)のファットツリーは確実に要件を満たし、スパイン層にはラック1台分のスイッチだけが必要になる(合計72個のASIC)。
モジュールそのものについては、プラガブルが最も簡単な選択肢だが、NvidiaはLightmatterが先月披露したような、ネア・パッケージド・オプティクス(NPO)を選ぶ可能性もある。
Vera Rubinについて、NvidiaはオベロンのNVL72ラックでは光学スケールを語っているが、NVL144のKyberシステムについては言及していない。
Nvidiaがそうした判断をした理由は厳密には分からないが、光学的にスケールアップできるなら、すべてを1つのラックに詰め込む必要がない点は押さえておく価値がある。つまり、熱と電力の観点から、8ラックにわたって光学スケールアップを支えるほうが理にかなっているのかもしれない。
Nvidia Feynmanがコパッケージドへ
話が本当に面白くなってくるのは、NvidiaのFeynman世代だ。これは2028年の中旬から後半に出荷が開始される予定だ。これらのシステムは、銅またはコパッケージド光学NVLinkインターコネクトのいずれかで提供されると聞いている。
Nvidiaはこの仕組みがどう動くのかについて、ある程度口が堅いものの、考えられる道筋はいくつかある。
最も単純な選択肢は、CPOをNVLinkスイッチASICに統合し、そのうえでラック内のインターコネクトは銅のままにすることだ。
この場合、2層のNVSwitchファブリックが必要になり、さらに2つ、あるいは3つの異なるスイッチASICが要ることになる。半分が光学のもの、完全に光学のもの、そしておそらくCPOを搭載しないものだ。
このルートを採れば、NVLinkスイッチのトレイを付け替える、あるいは必要に応じてスパインラックを転がし込む(ホイールして導入する)ことで、複数の構成に対応できるようになる。
より興味深い可能性は、CPOをスイッチとGPUパッケージの両方に統合することだ。これはほぼ確実に、複数のFeynman GPU SKU(光学あり/なしの2種類など)を生むことになるが、それでもファブリックを単一層にできる。
先月、El Regの取材でシャイナーは、同社がどちらのアプローチを前進させるのかについてはコメントを控えた。しかし、単一層の計算ファブリックの利点を強調した。
「スケールアップは、必要がないのに複数の層を作りたくないものです。計算エンジン間のレイテンシを最小化したいからです」と彼は言った。
仮にCPOをGPUに埋め込むことが可能だとしても、単一層のNVL1152システムには、途方もなく高レジックスのスイッチが必要になるだろう。ただし、Feynmanは2028年の中旬から後半まで出荷されない可能性が高いので、実現できる余地はあるはずだ。
生産手段を確保する
どちらの選択肢でも、レーザーモジュールの潤沢な供給が必要になる。CPOは多くの光学部品や信号処理をパッケージ上に移すが、レーザーは通常、保守性のために別に保たれる。これは、光学レーザーに特化した2社であるCoherentとLumentumに対し、先月Nvidiaが(各20億ドル、合計40億ドル)投下したことの説明にもなる。CPOを意味のある形で採り入れるなら、サプライチェーンが準備できていなければならない。
さらに、Nvidiaがアクセラレータ上のCPOへ移行しつつあることを示す根拠として、同社が今週初めに発表した、Marvellとの20億ドルの提携が挙げられる。
この投資の一環として、NvidiaはMarvellと協力し、高速インターコネクト技術であるNVLink Fusionのライセンス版を、GPU大手のVera CPUで使用するためのカスタムXPUsに統合する。作業は光学I/O技術の開発にも及ぶが、どの程度の範囲になるのかについて、両社は詳しくは明らかにしていない。
同じく姉妹サイトThe Next Platformが今週初めに論じたとおり、MarvellによるCelestial AIの32.5億ドルの買収が、ここで何らかの形で関わってくる可能性がある。
スタートアップのフォトニック・インターコネクト技術は、複数のラックにまたがるコヒーレント・メモリ・ネットワークの構築に使えるかもしれない。これは、AWSを含むMarvellの最大級の顧客の1社にとって魅力的であるのと同じくらい、Nvidiaにとっても魅力的になり得る。ご記憶のとおり、AWSはNVLink Fusionの最大級の顧客の1つであり、同社は次世代のTrainium4計算クラスターでこの技術を利用する計画だ。
いずれにせよ、Nvidiaは光学のスケールアップに向けて明確に覚悟を固めており、今後のシステム設計ではCPOがより大きな役割を担うことになるだろう。®




