Jensen Huangは月曜日にサンノゼでステージに立ち、彼が得意とすることをやった—すでに驚嘆すべき規模を控えめに見せること。Nvidiaの年次GTCデベロッパー会議で、黄氏はブラックウェルとヴェラ・ルビンのチップファミリー全体の受注総額が2027年までに1兆ドルに達すると予想していると発表した。昨年の予測はその半分だった。群衆はほとんど瞬きをしなかった。
ソフトウェア、AI、または計算基盤に触れる何かに従事しているなら、この基調講演はあなたの全注意を要した。実際に重要だったのはこれだ。
1兆ドルの受注ブック
Nvidiaの売上成長はほぼ滑稽なくらい安定しており—前年同期比55%以上を11四半期連続で記録している。先月、同社は第1四半期の売上を約780億ドルと予測し、前年同時期から77%の伸びを見込んだ。そして需要の信号は上向きを指し示し続けている。
黄氏の説明は簡単だった:AIワークロードがチャットボット型推論から「エージェント的」アプリケーションへ—複雑な多段タスクを達成する子エージェントを生み出すシステムへ—移行するにつれて、生成されるトークンの数が爆発的に増えた。トークンが多いほどGPUサイクルが増え、それがNvidiaを増やす。 「容量をもう少し増やせば、トークンをもっと生成でき、売上は上がるだろう」と黄氏は率直に語った。
これは今作られているすべてのAI製品の基盤となるインフラの現実だ。制約は知性ではなく、帯域幅と計算能力だ。
ヴェラ・ルビン:ワットあたりの性能10倍
今年後半の出荷を予定しているヴェラ・ルビンは、Nvidiaの次世代ラック規模システムです。ヘッドラインの指標は:前任者グレース・ブラックウェルよりワットあたりの性能が10倍。エネルギー消費がAI構築の最も重大なボトルネックの1つである時点で、これは大きな飛躍だ。データセンターはすでに世界中で電力網を逼迫しており、このスケールでの効率向上は実際の下流効果をもたらす—運用コストと継続的拡張の実現性の両方に。
ヴェラ・ルビンは130万個の部品から構成されている。その複雑さそのものが、元々Nvidiaを有名にしたゲーム寄りの起源を超えて、GPUアーキテクチャがどれほど進化したかの物語だ。
Groq 3 LPU: 200億ドルの賭けが初配当を生む
おそらく最も技術的に興味深い発表:NvidiaのGroq 3言語処理ユニット、LPU。NvidiaはGroqを買収した—Googleの社内Tensor Processing Unitを創設した創業者たちによって設立されたスタートアップ—昨年12月の200億ドルの資産買収で。Groq 3はその買収から生まれた最初のチップで、Q3の出荷が見込まれている。
設計は巧妙だ。GPUを置き換えるのではなく、Groq 3 LPUは補助チップとして機能する—1つのコアは高スループット用、もう1つは低遅延用だ。これらは推論ワークロードの異なるボトルネックに対処する。黄氏はGroq 3 LPXラックを紹介した。これは256個のLPUを収容し、ヴェラ・ルビンのGPUラックの横に配置されることを想定している。主張される改善は、Rubin GPU単体と比べてワットあたりのトークンが35倍向上、とのこと。
「極端に異なる2つのプロセッサを統合した。1つは高スループット用、もう1つは低遅延用だ」と黄氏は述べた。
Kyber: Rubinの次世代
すでにヴェラ・ルビンの次を示唆している中、黄氏はKyberのプロトタイプを披露した—密度を高め、遅延を低減するために144個のGPUを垂直型の計算トレイに詰め込む新しいラックアーキテクチャ。Kyberは2027年に登場予定の Vera Rubin Ultra として現れる。垂直トレイ設計は見た目以上の意味を持つ—このレベルの統合では熱と信号整合性の制約が鋭くなるのに対処している。
NemoClawとエージェント志向への転換
ハードウェアの発表とともに、NvidiaはNemoClawを導入した。それはマルチエージェントワークフローを構築する企業を対象としたAIエージェントプラットフォームだ。これが示すのは、Nvidiaが次の大規模なプラットフォームロックインの波をどこに見ているかだ—基盤モデル自体はますます商品化されているが、それらの上で動くオーケストレーションとメモリ層に形成されていく、ということだ。
ロボットデモはショーを締めくくった—ディズニーと提携したオラフ型ロボットを含み、NvidiaのGPU上でシミュレーションを実行。PR的な見せ物としての側面と、物理AIの実証の両方。
開発者とビルダーへの意味
AI APIの上にソフトウェア製品を構築している人にとって、GTCの話は実務的な現実へといくつかの形で翻訳される。
推論はより高速かつ安価になっている。 LPUとGPUの組み合わせ、さらにヴェラ・ルビンの効率向上を組み合わせることで、推論コストを引き続き低下させるはずだ。トークンコストが単位経済を意味ある入力とする製品を作る人にとって、それは素晴らしいことだ。
エージェント志向のワークロードが次の計算カテゴリーだ。 NvidiaがエージェントAIを軸に1兆ドルの受注予測を打ち出しているなら、インフラへの賭けもそれに合わせて行われている。今こそ、マルチエージェントアーキテクチャが実運用で実際にどう見えるのかを理解する時だ。
エネルギーのボトルネックは現実だが、対策は進行中だ。 10倍のワットあたりの性能はマーケティング用の数字ではなく、産業全体の成長を脅かしていた物理的制約に対するエンジニアリングの対応だ。
NvidiaのAIインフラにおける支配は一時的なものになるはずだった—CUDAとGPU並列処理の幸運な偶然が競合他社には回避されるだろう。現在のところ、同社は堀を広げ続けている。ヴェラ・ルビン、Groq LPU、Kyberがすでに2027年までの道筋が描かれており、その勢いは衰える気配を見せていない。
すべてのAI製品ビルダーにとっての問いは変わらない:今日存在するインフラのために設計しているのか、それともこれから構築されるインフラのために設計しているのか。