米NVIDIA(エヌビディア)がLLM(大規模言語モデル)の推論に特化した「Groq 3 LPU」を発表したように、推論専用チップが盛り上がっている。米Google(グーグル)も2025年4月にLLM推論に特化した「Ironwood」を発表済みであるほか、米Meta(メタ)や米OpenAI(オープンAI)も推論専用チップの開発・製造を進めている。
エヌビディアが2026年3月16日(米国時間)に発表した推論専用チップGroq 3 LPUは、最新GPU(画像処理半導体)とCPUである「Vera Rubin」と組み合わせて使う。消費電力当たりの推論スループットを現行GPUに比べて35倍に高められるとしている。
先に推論専用チップに動いた競合
エヌビディアの発表に先立つ2026年3月11日(同)にはメタが、独自のAI(人工知能)チップである「Meta Training and Inference Accelerator(MTIA)」のロードマップを発表。今後2年間で「MTIA 300」「MTIA 400」「MTIA 450」「MTIA 500」という4世代のMTIAをリリースする予定であり、2027年に展開(デプロイ)するMTIA 450とMTIA 500についてはLLM推論に特化したチップになることを明らかにした。
メタは既に、独自開発のAIチップとして「MTIA 100(旧名称はMTIA 1)」と「MTIA 200(同MTIA 2」」を発表済みである。ただしこれらのAIチップは、LLMが普及する以前の重要な機械学習処理であったランキングとレコメンデーション(メタはこの2つをR&Rと呼んでいる)に特化したものであり、LLM推論は考慮されていなかった。
現在量産を進めているMTIA 300もR&Rのトレーニングに特化したAIチップであるが、2026年に投入する予定のMTIA 400からはLLM推論にも対応する予定だ。そこから先のAIチップは前述の通り、LLM推論に特化する。メタは独自AIチップをすべて、米Broadcom(ブロードコム)と連携して開発・製造している。
オープンAIは2025年10月に、ブロードコムと連携して消費電力にして10GW(ギガワット)分の独自AIチップを開発・製造する計画を発表した。発表と同時に公開されたオープンAIのSam Altman(サム・アルトマン)CEO(最高経営責任者)とブロードコムのHock Tan(ホック・タン)CEOなどによるポッドキャストでは、このAIチップが推論専用になることが明かされている。オープンAIの推論専用チップは2026年下期から展開される予定だ。
推論専用チップを既に市場へ大規模に投入しているのがグーグルだ。グーグルは2025年4月にLLM推論に特化したIronwoodを発表し、2025年11月からGoogle Cloudで一般提供を開始した。同社の独自AIチップである「TPU」の第7世代で、2025年10月には米Anthropic(アンソロピック)がTPUの利用を100万個にまで増やすことを発表している。
エヌビディアは2025年12月、AIチップのスタートアップである米Groq(グロック)からCEOなど幹部を引き抜き、グロックに200億ドルとも報道される巨額の対価を支払い技術ライセンス供与を受けて、推論専用チップの投入を実現した。エヌビディアの動きは、ライバルの先行する動きを追いかけるものだと位置付けられる。
推論専用チップは、計算能力よりもメモリーが重要
LLMの推論に、トレーニング用とは別の専用チップが必要になる理由は各社で共通している。ブロードコムのタンCEOは前述のポッドキャストで「トレーニングには大規模なクラスターが必要であり、そのチップには『T(テラ)FLOPS(1秒当たりの浮動小数点演算回数)』で測る強力な計算能力やネットワーク能力が必要だ。それに対して推論には、計算能力よりもメモリー容量とメモリーへのアクセス速度が重要になる」と語っている。
LLMの推論処理は、トレーニングとほぼ同じ処理である「Prefill(プリフィル)」という処理と、トレーニングとは全く異なる「Decode(デコード)」という処理によって構成される。
プリフィルは入力テキスト(トークン)を読み込んで理解するという処理だ。入力した全トークンを同時に処理するため、高い計算能力が必要であり、分散処理が容易であるという特徴がある。一方のデコードは、ステップごとに1トークンずつテキストを出力するという処理だ。逐次的な処理であるため分散処理が難しく、計算能力よりも高速なメモリーアクセスを必要とする。
推論専用チップは、デコード処理をより優先したチップだ。高速なメモリーアクセスを実現するためGroq 3 LPUは、大容量のオンチップSRAMを実装するなど、トレーニング用であるGPUとは異なるアーキテクチャーを採用している。
パターソン氏が指摘する「推論専用チップに必要な技術」
推論専用チップは今後、さらに独自の進化を遂げていくことになりそうだ。その方向性は、著名なコンピューター科学者であり現在はグーグルで働くDavid Patterson(デイビッド・パターソン)氏が示している。
次のページ
パターソン氏は2026年1月、同じくグーグルに所...この記事は会員登録で続きをご覧いただけます




