推論が、AIチップ新興企業に第二のチャンスを与えている
分解されたAIの世界では、Nvidiaは味方にも敵にもなり得る
AIの導入は、学習用の新しいモデルを作ることから、それらを提供(提供・実行)することへと焦点が移るにつれて、転換点に達しつつあります。Nvidiaの懐に入るパイの一角を狙うAI新興企業にとっては、今がその時です。
学習と比べると、推論ははるかに多様なワークロードであり、それによってチップ新興企業が自分たちの居場所(ニッチ)を切り開くチャンスが生まれます。大きなバッチでの推論は、AIアシスタントやコードエージェントとは異なる計算、メモリ、帯域の組み合わせを必要とします。
このため推論は、ますます異種(ヘテロジニアス)なものになっており、その一部はGPUやそれ以外のより特化したハードウェアのほうが向いている可能性があります。
Nvidiaによる、12月のGroqの< a href="https://www.theregister.com/2025/12/31/groq_nvidia_analysis/">買収(acquihire)は好例です。SRAM比率の高い同社のチップアーキテクチャは、十分な数が揃えば、GroqのLPUがどんなGPUよりも速くトークンを生成できることを意味していました。しかし、計算能力が限られていたことと、古くなりつつあるチップ技術のため、そこまで効率よく規模拡大(スケール)できませんでした。
Nvidiaは、推論パイプラインのうち計算負荷の高い「prefill(事前入力)」部分を同社のGPUに移し、帯域制約のある「decode(デコード)」処理を新しいLPUsに残すことで、この問題を< a href="https://www.theregister.com/2026/03/19/nvidia_lpx_deep_dive/">回避しました。
この組み合わせはNvidiaに固有のものではありません。GTCの翌週、AWSは、自社のTrainiumアクセラレータをprefill用に、Cerebras Systemsのディナープレートほどの大きさのウェハスケール・アクセラレータをdecode用に使う、独自の分解型(ディスアグリゲーテッド)計算プラットフォームを< a href="https://www.aboutamazon.com/news/aws/aws-cerebras-ai-inference" rel="nofollow">発表しました。
インテルでさえ、この面白さに乗ってきました。発表したところによると、GPUを使用するリファレンスデザインで、(おそらく)昨年の北半球の秋に予告していたものを、推論時のプリフィルと、AIチップスタートアップであるサンボノバの新しいRDUsのデコードに使います。
これまでのところ、AIチップスタートアップの勝ち筋の多くは数式の「デコード」側にありました。SRAMは、さほど大容量ではないものの、驚くほど高速です。つまり、十分な数のチップ、あるいは(Cerebrasの場合のように)少なくとも十分に大きな1チップがあれば、デコード処理の高速化に適しています。しかし、チップスタートアップはこの領域に限られるわけではありません。
今週、Lumaiは光学式推論アクセラレータを詳しく説明しました。このアクセラレータは、電子ではなく光を使って、純粋にデジタルなアーキテクチャで行う場合の消費電力の一部で、ほとんどの機械学習ワークロードの中心にある行列乗算を実行します。
Lumaiは、次世代のIris Tetraシステムが、2029年までに10kWの電力予算の範囲でAI性能のexaOPSを達成すると見込んでいます。
技術的には、チップはハイブリッドの電気光学アーキテクチャを採用していますが、推論中に実際に行われる計算の大部分は、チップの光学テンソルコアが担います。
当初、同社はこのチップを、バッチ処理のような計算負荷の高い推論ワークロード向けの、GPUに対する単独の代替手段として位置付けています。より長期的には、同社は光学アクセラレータをプリフィル処理器としても活用する計画です。
そのアーキテクチャはまだ発展途上で、現時点でLlama 3.1 8Bや70Bのような「数十億パラメータ」モデルを動かせる段階にあるにすぎませんが、そこまで到達しているため、英国拠点のスタートアップは評価目的で自社のチップをネオクラウドやハイパースケーラーに公開しました。
- 帯域を食い尽くす人たちよ、喜べ――Celesticaの最新スイッチは1.6 TbpsのEthernetポートを64個搭載
- GoogleはTPUを一部の顧客に販売へ。彼らもまた“大-G”のGPUが欲しいと思っている
- Amazonのチップはもはやただのおかずではない――200億ドル規模の事業だ
- TenstorrentのGalaxy Blackhole AIサーバーが事象の地平線を脱出
とはいえ、すべてのAIチップスタートアップが、プリフィルとデコードで別々のチップを使うことに前向きというわけではありません。今週の初めにTenstorrentは発表した、RISC-VベースのGalaxy Blackhole計算プラットフォームについて、同社CEOのJim Kellerは分離型の推論という考え方が好きではない、と言って差し支えないでしょう。
「業界のあらゆる企業が、アクセラレータ“アクセラレータ”を作るために手を組んでいます。CPUはコードを実行します。GPUはCPUを加速します。TPUはGPUを加速します。LPUはTPUを加速します。……この結果、複雑な解決策になり、AIモデルの変更や用途に対して互換性を保つのは難しくなります。Tenstorrentでは、もう少し一般的で、より単純なものがうまくいくと考えました」
同社は声明の中でそう述べています。®




