推論がAIチップスタートアップに“第二のチャンス”を与える

The Register / 2026/5/3

💬 オピニオンSignals & Early TrendsIndustry & Market Moves

要点

  • 記事は、「学習と切り離された」分散型(disaggregated)なAIシステムへの移行により、推論を軸に小規模なAIチップスタートアップが再び競争の場を得られると論じています。
  • 大規模学習の性能だけでなく、コスト・消費電力効率・実運用での適合性といった点で、新規参入者が差別化できる可能性を指摘しています。
  • 同記事は、Nvidiaを“相棒”にも“敵”にもなり得る存在として位置づけています(エコシステムの活用余地と、プラットフォームや供給面での防衛リスクの両方があるためです)。
  • 結論として、推論市場の採算構造の変化が、AIアクセラレータやハードウェア供給者をめぐる競争環境を再調整し得ると示唆しています。

推論が、AIチップ新興企業に第二のチャンスを与えている

分解されたAIの世界では、Nvidiaは味方にも敵にもなり得る

2026 年 5 月 3 日 // 13:05 UTC

AIの導入は、学習用の新しいモデルを作ることから、それらを提供(提供・実行)することへと焦点が移るにつれて、転換点に達しつつあります。Nvidiaの懐に入るパイの一角を狙うAI新興企業にとっては、今がその時です。

学習と比べると、推論ははるかに多様なワークロードであり、それによってチップ新興企業が自分たちの居場所(ニッチ)を切り開くチャンスが生まれます。大きなバッチでの推論は、AIアシスタントやコードエージェントとは異なる計算、メモリ、帯域の組み合わせを必要とします。

このため推論は、ますます異種(ヘテロジニアス)なものになっており、その一部はGPUやそれ以外のより特化したハードウェアのほうが向いている可能性があります。 

Nvidiaによる、12月のGroqの< a href="https://www.theregister.com/2025/12/31/groq_nvidia_analysis/">買収(acquihire)は好例です。SRAM比率の高い同社のチップアーキテクチャは、十分な数が揃えば、GroqのLPUがどんなGPUよりも速くトークンを生成できることを意味していました。しかし、計算能力が限られていたことと、古くなりつつあるチップ技術のため、そこまで効率よく規模拡大(スケール)できませんでした。

Nvidiaは、推論パイプラインのうち計算負荷の高い「prefill(事前入力)」部分を同社のGPUに移し、帯域制約のある「decode(デコード)」処理を新しいLPUsに残すことで、この問題を< a href="https://www.theregister.com/2026/03/19/nvidia_lpx_deep_dive/">回避しました。 

この組み合わせはNvidiaに固有のものではありません。GTCの翌週、AWSは、自社のTrainiumアクセラレータをprefill用に、Cerebras Systemsのディナープレートほどの大きさのウェハスケール・アクセラレータをdecode用に使う、独自の分解型(ディスアグリゲーテッド)計算プラットフォームを< a href="https://www.aboutamazon.com/news/aws/aws-cerebras-ai-inference" rel="nofollow">発表しました。

返却形式: {"translated": "翻訳されたHTML"}

インテルでさえ、この面白さに乗ってきました。発表したところによると、GPUを使用するリファレンスデザインで、(おそらく)昨年の北半球の秋に予告していたものを、推論時のプリフィルと、AIチップスタートアップであるサンボノバの新しいRDUsのデコードに使います。

これまでのところ、AIチップスタートアップの勝ち筋の多くは数式の「デコード」側にありました。SRAMは、さほど大容量ではないものの、驚くほど高速です。つまり、十分な数のチップ、あるいは(Cerebrasの場合のように)少なくとも十分に大きな1チップがあれば、デコード処理の高速化に適しています。しかし、チップスタートアップはこの領域に限られるわけではありません。

今週、Lumaiは光学式推論アクセラレータを詳しく説明しました。このアクセラレータは、電子ではなく光を使って、純粋にデジタルなアーキテクチャで行う場合の消費電力の一部で、ほとんどの機械学習ワークロードの中心にある行列乗算を実行します。

Lumaiは、次世代のIris Tetraシステムが、2029年までに10kWの電力予算の範囲でAI性能のexaOPSを達成すると見込んでいます。

技術的には、チップはハイブリッドの電気光学アーキテクチャを採用していますが、推論中に実際に行われる計算の大部分は、チップの光学テンソルコアが担います。

当初、同社はこのチップを、バッチ処理のような計算負荷の高い推論ワークロード向けの、GPUに対する単独の代替手段として位置付けています。より長期的には、同社は光学アクセラレータをプリフィル処理器としても活用する計画です。

そのアーキテクチャはまだ発展途上で、現時点でLlama 3.1 8Bや70Bのような「数十億パラメータ」モデルを動かせる段階にあるにすぎませんが、そこまで到達しているため、英国拠点のスタートアップは評価目的で自社のチップをネオクラウドやハイパースケーラーに公開しました。 

とはいえ、すべてのAIチップスタートアップが、プリフィルとデコードで別々のチップを使うことに前向きというわけではありません。今週の初めにTenstorrentは発表した、RISC-VベースのGalaxy Blackhole計算プラットフォームについて、同社CEOのJim Kellerは分離型の推論という考え方が好きではない、と言って差し支えないでしょう。 

「業界のあらゆる企業が、アクセラレータ“アクセラレータ”を作るために手を組んでいます。CPUはコードを実行します。GPUはCPUを加速します。TPUはGPUを加速します。LPUはTPUを加速します。……この結果、複雑な解決策になり、AIモデルの変更や用途に対して互換性を保つのは難しくなります。Tenstorrentでは、もう少し一般的で、より単純なものがうまくいくと考えました」

同社は声明の中でそう述べています。®

この話題についてもっと見る

共有する

情報をお知らせください

ニュースをお送りください