Googleは「Nvidia税」を払わない――新しいTPUがその理由を説明

VentureBeat / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Googleは第8世代のTPU(TPU 8tとTPU 8i)を先行プレビューし、最新のAIワークロードを「最先端モデルの学習」と「エージェント向けの低遅延推論/リアルタイムサンプリング」に分け、それぞれに最適化した専用シリコンだと位置付けています。
  • 同社は、AIスタック全体を垂直統合して設計する方針を強調し、Nvidia中心の計算資源への依存度が高い競合に比べて、コスト・パー・トークンで優位になり得ると主張しています。
  • 2チップのロードマップ方針は2024年に決めたとし、業界全体が推論モデル、エージェント、強化学習へ大きく舵を切る前から、その方向性を見ていたと説明しています。
  • 企業顧客にとっての重要な変化は、学習(微調整や大規模学習)と本番のエージェント提供を、これまでのように同じアクセラレータに無理に割り当てる必要がなくなる点にあります。
  • TPU 8tは、計算性能やネットワークの大幅な向上に加え、Superpodクラスタが「Virgo」相互接続技術を使って単一の学習ジョブでTPUチップ100万規模を超えてスケールできることが示されています。

いま、最前線のAIラボのほとんどは「電力」と「計算資源」の2つを配給しています。その多くは、モデル学習用の計算資源を同じサプライヤーから購入していますが、その結果得られる大幅な総利益率が、Nvidiaを世界でもっとも価値の高い企業の一つに押し上げました。Googleは、そうではありません。

火曜の夜、ラスベガスのF1 Plazaで開かれた非公開の集まりの中で、Googleは第8世代のTensor Processing Unit(TPU)を先行公開しました。売りは、今年後半に出荷される2つのカスタム・シリコン設計。それぞれが、現代のAIワークロードの異なる半分に最適化されています。TPU 8tはフロンティア・モデルの学習を狙い、TPU 8iは、エージェント型推論とリアルタイム・サンプリングという、低レイテンシーかつメモリを大量に消費する領域を狙います。

GoogleのSVPであり、AIとインフラのチーフ・テクノロジスト(上左の写真)であるAmin Vahdatは、ステージ上で、個々の仕様よりも企業の購買担当者にとって重要な一点を強調しました。GoogleはAIスタックのあらゆる層をエンドツーエンドで設計しており、その垂直統合が、Googleの競合他社では太刀打ちできないとしている「コスト・パー・トークン」の経済性として、すでに表れ始めているのだと述べたのです。

"1年に1チップでは足りなかった":Googleの2チップ・ロードマップに賭けた2024年の意思決定の中身

v8tとv8iの背景で、より興味深いのは、ロードマップを分岐させる判断がいつ下されたかです。Vahdatによれば、その決定の電話は2024年にかかってきたとのことです。業界全体が、支配的なフロンティア・ワークロードとして、推論(reasoning)モデル、エージェント、強化学習へと大きく舵を切る1年前のことです。

当時の見立ては、むしろ逆張りでした。"2年前に、1年に1チップでは十分ではないと気づきました"とVahdatは、ファイヤーサイド(暖炉のそばの対談)中に語りました。"これは、実際に2つの非常に高性能で専用化されたチップでいくための、最初の試みです。"

企業の購買担当者にとって、この含意は具体的です。Google Cloud上で微調整(fine-tuning)や大規模な学習を実行している顧客、そしてVertex AIでプロダクションのエージェントを提供している顧客は、同じアクセラレータを借りて使わざるを得ず、その非効率を食らってきました。V8は、そのための「別の問題」をシリコン自体が2系統のチップとして扱い始める最初の世代です。

TPU 8t:100万チップまで拡張できる学習用ファブリック

紙の上では、TPU 8tは強気な世代進化です。Googleによれば、8tは、2025年に出荷された第7世代TPUであるIronwoodに対して、ポッドあたりのFP4 EFlopsが2.8倍(121対42.5)であり、1チップあたりの双方向スケールアップ帯域を19.2 Tb/sまで2倍にし、さらにチップあたりのスケールアウト用ネットワーキングを400 Gb/sまで4倍にします。ポッドサイズは9,216から9,600チップへとわずかに増え、Googleの3D Torusトポロジによって一体としてつながれます。

ITリーダーが、フロンティア規模の学習をどこで実行するかを評価する際に最も重要な数字は次の点です。8tのクラスター(Superpods)は、新しいインターコネクトであるVirgo networkingをGoogleが「Virgo」と呼んでいる方法により、単一の学習ジョブで100万TPUチップを超えるスケールが可能です。

また8tでは、TPU Direct Storageも導入されます。これにより、データをGoogleのマネージド・ストレージ層から、通常のCPUを介したホップなしで直接HBMへ移します。各エポックを完了するために必要なポッド時間(pod-hours)を減らせるのは、壁時計時間(wall-clock time)がコストの駆動要因となる長時間学習ランで、そのデータ経路を圧縮できるためです。

TPU 8iとBoardfly:エージェントのためにネットワークを作り直す

もし8tが進化的なステップだとするなら、TPU 8iは、よりアーキテクチャ的に面白いチップです。そして、IT購買担当者にとっての物語が最も説得力を増すのもここです。

Vahdatが言ったとおり、年次で見たときの仕様の飛躍は「驚くべきもの」です。Googleによれば、8iはポッドあたりのFP8 EFlopsを9.8倍(11.6対1.2)、ポッドあたりのHBM容量を6.8倍(331.8 TB対49.2)にし、さらにポッドサイズは256から1,152チップへと4.5倍に拡大します。

これらの数字を生んだのは、ネットワークそのものの再考でした。Vahdatは洞察を直接こう説明しています。Googleの標準的なチップ接続方法は、レイテンシよりも帯域(bandwidth)を優先していたのです。大量のデータを流し込む用途には適していても、レスポンスが返ってくるまでの最短時間を作るためには設計されていません。そのプロファイルは学習には機能します。しかしエージェントでは機能しません。

Google DeepMindとの協業により、TPUチームはGoogleがBoardflyトポロジと呼ぶものを、ポッド内の任意の2チップ間に存在するホップ数を減らすために、特別に構築しました。さらに、Collective Acceleration Engineと、Googleが「非常に大きなオンチップSRAM」と表現するものと組み合わせたことで、8iはリアルタイムLLMサンプリングと強化学習に対して、レイテンシが5倍改善する(とされる)成果をもたらします。

垂直統合の「モート(城壁)」:なぜGoogleは"Nvidia税"を払わないのか

Vahdatのプレゼン全体に漂うサブテキストは、Googleが「AIスタック」と呼ぶ6層の図です。基盤の部分にエネルギー、次にデータセンターの土地・筐体(land and enclosures)、AIインフラのハードウェア、AIインフラのソフトウェア、モデル(Gemini 3)、そしてその上に乗るサービスです。Vahdatは、各層を別々に設計すると、それぞれの層で最小公倍数に寄せざるを得ないと指摘しました。Googleはそれらを一緒に設計しているのです。

ここで、IT購買担当者やアナリストにとっての競争ストーリーがはっきり固まります。OpenAI、Anthropic、xAI、Metaはいずれも、フロンティア・モデルの学習にNvidiaのシリコンに大きく依存しています。彼らが購入するH200やBlackwell GPUのそれぞれに、Nvidiaのデータセンター総利益率が含まれています。業界のアナリストは、この「Nvidia税」を、設計して取り込むのではなく借りて使う(レンタルする)側に対する構造的なコスト上の不利として、2年連続で指摘してきました。GoogleはTPUで、ファブ(製造)、パッケージング、エンジニアリングのコストを支払います。しかしその利益率は支払いません。

計算資源競争(compute race)においてv8が意味すること:ITリーダー向けの新しい評価チェックリスト

調達・インフラチームにとって、TPUv8は2026〜2027年のクラウド評価を、具体的な形に作り替えます。

大規模な独自モデルを学習しているチームは、注目のEFlops(ヘッドライン数値)だけでなく、8tの稼働可能期間(availability windows)、Virgo networkingへのアクセス、そして良好なグッドプット(goodput)のSLAを確認すべきです。エージェントや推論ワークロードを提供しているチームは、Vertex AI上での8iの稼働可能期間、独立したレイテンシのベンチマークが出てきた時点での評価、そしてHBMポッドサイズの見積もりが自社のコンテキストウィンドウに適合するかを検討すべきです。Gemini Enterprise経由でGeminiを利用するチームは、8iの向上分を取り込み、その上で、2026年を通じてプロダクションで投入できるものの上限(天井)が、意味のある形で上がっていくことを期待できます。

注意点も現実にあります。一般提供(general availability)は「2026年後半まで」まだ先です。v8は、現時点での調達判断ではなく、ロードマップのシグナルです。Googleのベンチマークは自己申告(self-reported)です。間違いなく、独立した数値は今後2四半期の間に、初期のクラウド顧客とサードパーティの評価者から出てくるでしょう。そしてJAX/XLAとCUDA/PyTorchエコシステムの間での移植性(ポータビリティ)は、複数年コミットメントの交渉時に考慮する価値のある摩擦コストとして残り続けます。

さらに先を見据えると、Vahdatは注目に値する2つの予測を示しました。1つ目は、汎用CPUがAIシステムの中で再び存在感を増すということです。アキュレータ(加速器)としてではなく、エージェントのサンドボックス、仮想マシン、ツール実行のためのオーケストレーション(制御)計算資源としてです。2つ目は、Googleのロードマップ予告ではなく「業界予測」として明示した上で、専用化(specialization)もまた強いまま続くという点です。汎用CPUが年数%程度の伸びで横ばいになっていくにつれ、重要なワークロードは、専用に作られたシリコンを要求するようになります。"2チップになるかもしれません"とVahdatは述べましたが、"それ以上"が将来のTPUバリアントなのか、あるいは別のクラスの専用アクセラレータなのかについては明言しませんでした。

かつてフロンティアの計算資源競争は、「誰がH100を最も多く買えるか」の問題でした。いまは、「誰がスタックを握っているか」の問題です。本当にそれができる企業のリストとして、現時点で残っているのは2社だけです。GoogleとNvidiaです。