エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表

日経XTECH / 2026/4/3

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market Moves

共有:

要点

エヌビディアはGTC 2026で、推論特化チップ「NVIDIA Groq 3 LPU」を発表し、GPU一本足の弱点を補う狙いを示した。
Groqの技術を用いて開発され、ラック形式の「NVIDIA Groq 3 LPX」（ラックあたり256個搭載）として提供されるほか、GPU/CPU「Vera Rubin NVL72」と併用する構成が想定されている。
データフロー型アーキテクチャとオンチップSRAM（LPU1個あたり500MB）により、メモリ伝送のボトルネックを抑えて電力効率と超低遅延の推論を目指す。
LLMの推論を「Prefill（入力理解）」と「Decode（生成）」に分け、計算量が大きい部分をGPU、生成処理の一部をLPUが担うことで両者の長所を統合する設計を説明した。
2025年12月にグロック幹部の引き抜きと技術ライセンス契約（実質的な買収と報道）を経て共同設計した点が背景として示され、Vera Rubin NVL72併用でエネルギー当たり性能35倍・費用対効果10倍と主張した。

　米エヌビディアは2026年3月16～19日（米国時間）に米カリフォルニア州サンノゼで開催した年次開発者会議「GTC 2026」で、推論特化チップ「NVIDIA Groq 3 LPU」を発表した。米AI（人工知能）半導体スタートアップのグロックの技術を用いて開発した。エヌビディアの主力製品であるGPU（画像処理半導体）とは異なる特徴を持つチップを製品化し、「GPU一本足」という弱点の克服を狙う。

エヌビディアが発表した推論特化チップ「NVIDIA Groq 3 LPU」（右）

[画像のクリックで拡大表示]

　エヌビディアはGroq 3 LPUをラック形式の「NVIDIA Groq 3 LPX」として顧客に提供する。ラック全体で256個のGroq 3 LPUを搭載した推論特化サーバーだ。エヌビディアによれば、最新のGPUとCPU（中央演算処理装置）である「Vera Rubin」世代のラックサーバー「Vera Rubin NVL72」との併用を想定している。

　互いの長所を生かすことで、Vera Rubin NVL72とGroq 3 LPXを併用すると、現行のBlackwell世代の「GB200 NVL72」と比較してメガワット当たりの推論スループットが35倍、1兆パラメーターのAIモデルを稼働させた場合の費用対効果は10倍になるという。

実質買収で弱みを克服

　エヌビディアは2025年12月、グロックのジョナサン・ロスCEO（最高経営責任者）ら幹部を引き抜き、かつグロックから技術ライセンス供与を受ける契約を結んだ。米CNBCは対価を200億ドル（当時のレートで約3兆1000億円）と報じており、「実質的な買収」との指摘もある。今回、発表したGroq 3 LPUはエヌビディアとグロックが共同設計した。

　Groq 3 LPUは「データフロー型アーキテクチャー」のチップで、引数となるデータがそろった命令から順次実行し、プロセッサー内部でベルトコンベヤーの上を流れるように処理が進む。既存のプロセッサーの多くが採用するノイマン型アーキテクチャーと異なり、メモリーとプロセッサー間の伝送速度がボトルネックになりにくい。

　LPU1個当たり500メガバイトのSRAMをオンチップで搭載し、外部メモリーへのアクセスはGPUと比較して大幅に少ない。この構造によって、電力効率に優れ超低遅延の推論処理を実現できる。

　GTCの基調講演で、エヌビディアのジェンスン・ファンCEOは、Groq 3 LPXとVera Rubin NVL72を適材適所で併用する具体的な仕組みを解説した。

　LLM（大規模言語モデル）の推論には「Prefill（プリフィル）」と「Decode（デコード）」という2つのフェーズがある。Prefillは入力テキストを読み込んで理解する段階で、膨大な計算量が必要になる。Decodeは順序立ててテキストなどを生成する段階で、前のテキスト情報をキャッシュしながらデータを速く動かす性能が必要になる。

　計算量が必要なPrefillと文脈把握や記憶保持などのDecodeの一部をGPUで処理しつつ、テキストの生成処理をLPUが担うことで、お互いの長所を生かせるという。ファンCEOは「両極端なプロセッサーの統合で価値が高まる」と主張した。

OpenClawを企業でも使いやすく

この記事は有料会員限定です