生成AIで盛り上がる「推論専用チップ」、著名科学者が示す進化の行方

日経XTECH / 3/19/2026

📰 NewsSignals & Early TrendsIndustry & Market Moves

共有:

Key Points

推論専用チップの市場が活発化しており、NVIDIAのGroq 3 LPUをはじめGoogleのIronwood、Meta/OpenAIなどが推論特化を公表・展開している。
Groq 3 LPUは Vera Rubinと組み合わせて使用し、現行GPU比で消費電力あたりの推論スループットを約35倍と公表している。
メタはMTIAのロードマップを示し、MTIA 400/450/500でLLM推論対応を目指すほか、過去のR&R向けチップから推論適性へと拡張している。
推論設計では計算能力よりメモリ容量とアクセス速度が重視され、デコード処理の最適化がパフォーマンスを決定づける要因として認識されている。

　米NVIDIA（エヌビディア）がLLM（大規模言語モデル）の推論に特化した「Groq 3 LPU」を発表したように、推論専用チップが盛り上がっている。米Google（グーグル）も2025年4月にLLM推論に特化した「Ironwood」を発表済みであるほか、米Meta（メタ）や米OpenAI（オープンAI）も推論専用チップの開発・製造を進めている。

　エヌビディアが2026年3月16日（米国時間）に発表した推論専用チップGroq 3 LPUは、最新GPU（画像処理半導体）とCPUである「Vera Rubin」と組み合わせて使う。消費電力当たりの推論スループットを現行GPUに比べて35倍に高められるとしている。

先に推論専用チップに動いた競合

　エヌビディアの発表に先立つ2026年3月11日（同）にはメタが、独自のAI（人工知能）チップである「Meta Training and Inference Accelerator（MTIA）」のロードマップを発表。今後2年間で「MTIA 300」「MTIA 400」「MTIA 450」「MTIA 500」という4世代のMTIAをリリースする予定であり、2027年に展開（デプロイ）するMTIA 450とMTIA 500についてはLLM推論に特化したチップになることを明らかにした。

　メタは既に、独自開発のAIチップとして「MTIA 100（旧名称はMTIA 1）」と「MTIA 200（同MTIA 2」」を発表済みである。ただしこれらのAIチップは、LLMが普及する以前の重要な機械学習処理であったランキングとレコメンデーション（メタはこの2つをR＆Rと呼んでいる）に特化したものであり、LLM推論は考慮されていなかった。

　現在量産を進めているMTIA 300もR＆Rのトレーニングに特化したAIチップであるが、2026年に投入する予定のMTIA 400からはLLM推論にも対応する予定だ。そこから先のAIチップは前述の通り、LLM推論に特化する。メタは独自AIチップをすべて、米Broadcom（ブロードコム）と連携して開発・製造している。

　オープンAIは2025年10月に、ブロードコムと連携して消費電力にして10GW（ギガワット）分の独自AIチップを開発・製造する計画を発表した。発表と同時に公開されたオープンAIのSam Altman（サム・アルトマン）CEO（最高経営責任者）とブロードコムのHock Tan（ホック・タン）CEOなどによるポッドキャストでは、このAIチップが推論専用になることが明かされている。オープンAIの推論専用チップは2026年下期から展開される予定だ。

　推論専用チップを既に市場へ大規模に投入しているのがグーグルだ。グーグルは2025年4月にLLM推論に特化したIronwoodを発表し、2025年11月からGoogle Cloudで一般提供を開始した。同社の独自AIチップである「TPU」の第7世代で、2025年10月には米Anthropic（アンソロピック）がTPUの利用を100万個にまで増やすことを発表している。

　エヌビディアは2025年12月、AIチップのスタートアップである米Groq（グロック）からCEOなど幹部を引き抜き、グロックに200億ドルとも報道される巨額の対価を支払い技術ライセンス供与を受けて、推論専用チップの投入を実現した。エヌビディアの動きは、ライバルの先行する動きを追いかけるものだと位置付けられる。

推論専用チップは、計算能力よりもメモリーが重要

　LLMの推論に、トレーニング用とは別の専用チップが必要になる理由は各社で共通している。ブロードコムのタンCEOは前述のポッドキャストで「トレーニングには大規模なクラスターが必要であり、そのチップには『T（テラ）FLOPS（1秒当たりの浮動小数点演算回数）』で測る強力な計算能力やネットワーク能力が必要だ。それに対して推論には、計算能力よりもメモリー容量とメモリーへのアクセス速度が重要になる」と語っている。

　LLMの推論処理は、トレーニングとほぼ同じ処理である「Prefill（プリフィル）」という処理と、トレーニングとは全く異なる「Decode（デコード）」という処理によって構成される。

　プリフィルは入力テキスト（トークン）を読み込んで理解するという処理だ。入力した全トークンを同時に処理するため、高い計算能力が必要であり、分散処理が容易であるという特徴がある。一方のデコードは、ステップごとに1トークンずつテキストを出力するという処理だ。逐次的な処理であるため分散処理が難しく、計算能力よりも高速なメモリーアクセスを必要とする。

　推論専用チップは、デコード処理をより優先したチップだ。高速なメモリーアクセスを実現するためGroq 3 LPUは、大容量のオンチップSRAMを実装するなど、トレーニング用であるGPUとは異なるアーキテクチャーを採用している。

パターソン氏が指摘する「推論専用チップに必要な技術」

　推論専用チップは今後、さらに独自の進化を遂げていくことになりそうだ。その方向性は、著名なコンピューター科学者であり現在はグーグルで働くDavid Patterson（デイビッド・パターソン）氏が示している。

パターソン氏は2026年1月、同じくグーグルに所...

この記事は会員登録で続きをご覧いただけます

What 81,000 people want from AI

Anthropic News

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

ラピダス、半導体設計AIエージェント「国内2社海外1社が使用中」

日経XTECH

「AIで雇用は増える」「AIの進化はツールがけん引」、5つのAI潮流を解説

日経XTECH

ベテランの若手育成負担を減らせ、PLC制御の「ラダー図」をAIで生成

日経XTECH

生成AIで盛り上がる「推論専用チップ」、著名科学者が示す進化の行方

Key Points

先に推論専用チップに動いた競合

推論専用チップは、計算能力よりもメモリーが重要

パターソン氏が指摘する「推論専用チップに必要な技術」

次のページ

Related Articles

What 81,000 people want from AI

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

ラピダス、半導体設計AIエージェント「国内2社海外1社が使用中」

「AIで雇用は増える」「AIの進化はツールがけん引」、5つのAI潮流を解説

ベテランの若手育成負担を減らせ、PLC制御の「ラダー図」をAIで生成

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Key Points

先に推論専用チップに動いた競合

推論専用チップは、計算能力よりもメモリーが重要

パターソン氏が指摘する「推論専用チップに必要な技術」

次のページ

Related Articles

What 81,000 people want from AI

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

ラピダス、半導体設計AIエージェント「国内2社海外1社が使用中」

「AIで雇用は増える」「AIの進化はツールがけん引」、5つのAI潮流を解説

ベテランの若手育成負担を減らせ、PLC制御の「ラダー図」をAIで生成

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ