推論インフレクション：なぜAIの重心がトレーニングから推論へと移ったのか

Dev.to / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisIndustry & Market Moves

共有:

要点

記事は、AIの重心がより大規模なモデルの学習から、低遅延かつ低コストで、はるかに大量のトークンを扱うことへ移っていると主張する。
ジェンセン・フアン（「推論インフレクションが到来した」）およびサム・アルトマン（「トークン・ファクトリー」）によるGTC 2026での発言は、マーケティングではなく産業構造の変化の兆候として提示されている。
報告された開示によれば、推論需要は爆発的に増大しており、たとえばGoogleのトークン量の指標（直接APIで最大16Bトークン/分）や、Microsoft Azureの「四半期で100兆トークン超」といった数値が挙げられている。
フアンの「100万倍」の計算需要という主張を分解し、推論／エージェント型モデルによるタスクあたりの計算量の増加と、トータルのトークン量の大幅な成長を組み合わせることで、推定される上限レンジを10^4〜10^6とする。
この記事は、決算説明会のやり取り、研究論文、公式開示を総合し、推論のボトルネックの背後にある技術的・経済的な要因を整理している。

GTC 2026でジェンセン・フアンは次のように宣言しました。「推論のインフレクションが到来した。」

Sam Altmanは、Stratecheryのインタビューで別の言い方をしました。「会社としてやるべきことは、トークン工場になり、つまり知能の工場になることです。」

これらはマーケティングのスローガンではありません。エンジニア、アーキテクト、そして技術リーダーなら誰もが理解すべき、AI業界における構造的な変化を説明しています。ボトルネックは「より大きなモデルの学習」から、「より多くのトークンを、より多くのユーザーやエージェントに対して、低レイテンシかつ低コストで、継続的に提供すること」へと移りました。

この記事は、一次情報（決算説明資料、研究論文、公式開示）を統合し、このインフレクションの技術面および経済面の構造をマッピングします。

1. 数字で見る需要爆発

トークン量：Googleの透明性

Googleは主要なAIラボの中で、最も透明性の高いトークン量データを提供しています。

日付	月間トークン量	出所
2024	9.7兆	Google I/O 2025（スンダー・ピチャイ）
2025年5月	480兆	Google I/O 2025
2025年7月	980兆	その後の開示
2025年10月	1.3京（quadrillion）	その後の開示
2026年4月	160億/分（直接APIのみ）	Google Cloud Next 2026

2026年4月の数値—直接APIだけで1分あたり160億トークン—は、月あたり約69兆トークンに相当し、検索やGmailのような一般消費者向けの表面（サーフェス）は含まれていません。意味するところは、推論負荷の大部分が、消費者向けUIではなく、開発者向けAPIやエンタープライズのワークロードから来ているということです。

Microsoft Azure

2025年度第3四半期の決算説明会（2025年4月30日）で、サティア・ナデラはAzureが四半期で100兆トークン超を処理したと開示しました。中でも3月単体が50兆トークンを占めており、前年比5倍の増加です。

フアンの「100万倍」主張

計算需要が「2年で100万倍に増えた」というフアンの主張は、複合指標です。内訳は次のとおりです。

タスクあたりの計算増加: 推論モデル（o1のようなもの）は、通常の生成よりも約100倍の計算量を必要とします。エージェント型システム（Claude Codeのようなもの）では、さらに約100倍が加わります。合わせると約10,000倍。
利用量の爆発的増加: Googleのデータは、2024年から2025年後半にかけて月間トークン量が約134倍に増えたことを示しています。
合算: 10^4〜10^6の範囲—フアンの「100万倍」は、この複合指標の上限を表しています。

EE Timesは、理解のための適切な目安を提供しています。GTC 2025では「100倍」が挙げられ、GTC 2026では「10,000倍」が挙げられました。「100万倍」の数字は、現実の構造的な圧力の“最大ケース”として理解されるべきです。

2. なぜ今、推論コストが支配的なのか

構造的な非対称性

学習は一度きりの資本支出です。推論は継続的な運用支出（operating expenditure）です。

Andy Jassy（Amazon CEO、2025年株主向け書簡）: 「学習は定期的に起こるが、推論は大規模に継続的に起こる。将来のAIコストの大半は推論である。」

Gartnerは、推論が2026年のAI最適化IaaS支出の55%を占めると予測しており、さらに2029年までに65%+に上昇します。推論のアプリケーション支出は、92億ドル（2025年）から206億ドル（2026年）へと跳ね上がる見込みです。

ジェヴォンズのパラドックスが実際に起きている

スタンフォード大学HAIのAI Index 2025によれば、GPT-3.5相当のシステムにおける推論コストは、2022年11月から2024年10月の間に280倍低下しました。ハードウェアコストは年あたり約30%下がりました。電力効率は年あたり約40%改善しました。

しかし、ハイパースケーラーのCapExは縮小ではなく拡大しています。

企業	2026年のCapEx計画
Alphabet/Google	175〜1900億ドル
Amazon	約2000億ドル
Microsoft	約1900億ドル
Meta	最大1350億ドル
合計	600〜7000億ドル超

コスト削減は需要を破壊しているのではありません。需要を生み出しているのです。価格が下がるたびに、新しいユースケース、新しいエージェント、新しいワークロードが解放されます。単位コストが崩れ落ちても、推論への総支出は増え続けます。これは、計算（compute）に適用されたジェヴォンズのパラドックスの典型例です。

OpenAIの社内経済

Epoch AIによるOpenAIの2024年の計算（compute）支出の分析は、移行が進行中であることを示しています。

カテゴリ	支出
学習	30億ドル
推論	18億ドル
研究用コンピュート	10億ドル（年換算：20億ドル）

研究開発は依然として2024年では支配的ですが、推論だけで18億ドルに到達しています。Altmanも確認しました。「私たちは推論で利益が出ています。もし学習の費用を払う必要がなければ、私たちは非常に利益の出る会社になるでしょう。」（Axios、2025年8月）

3. エージェント型AI：推論のマルチプライヤー

タスクあたりのトークン消費量

チャットボットからエージェントへのシフトは、単なる漸進的な変化ではありません。掛け算のように増幅します。

エージェント	推論の特性	出所
Claude Code	標準セッションのトークンの約7倍。平均約12,000トークン/タスク。チームモードはさらに増幅します（各メンバーごとに独立したコンテキストを保持するため）。	Anthropic公式ドキュメント
Claude Code（エンタープライズ）	開発者あたりアクティブな1日で平均13ドル。90%が1日30ドル未満。月150〜250ドル/開発者。	Business Insider、2026年4月
Cursor	単一リクエストで最大370,000トークンを送れる（通常のチャットの約185倍）。APIレートでの費用は約1.35ドル/リクエスト。	開発者向けドキュメント
OpenAI Codex	同等のタスクにおけるトークン消費はClaude Codeの約1/2〜1/3。バッチ/PRワークフローでは費用対効果が高い。	比較分析
Devin	完全に自律的。複数ステップのタスクにわたって計画/追跡の構造を維持します。トークン消費が非常に大きい。	プロダクトドキュメンテーション

2026年3月のAll-In Podcastでのジェンセン・フアンの説明：「年収50万ドルのソフトウェアエンジニアは、少なくとも年25万ドル分のトークンを消費すべきだ。」

誰も予想しなかったCPU不足

インテルの2026年Q1の決算（2026年4月23日）は、推論インフレクションがもたらす構造的な帰結を明らかにしました。

DCAIの売上：50.5億ドル（前年比+22.4%）。株価は翌日+24%上昇—1987年以来の最大の単日上昇。
CFOのデイブ・ジンスナー：「学習ではCPUあたり7〜8枚のGPUだが、推論ではCPUあたり3〜4枚のGPU。エージェント型AIでは同等、あるいは逆転にまで至る可能性がある。」
CEOのリップ＝ブー・タン：「CPUは、AIスタック全体の重要なオーケストレーション層およびコントロールプレーンとして、再び投入されつつある。」
供給の不足：ジンスナーはそれを「Bから始まる」と表現しました—少なくとも未充足のCPU需要が10億ドル以上。

業界は2年かけて、あらゆるドルをGPUへ振り向けました。ところが今、CPU上でコードを実行し、シミュレーションを行い、RL環境を管理するエージェント型ワークロードが、その投資不足を露呈しています。

4. 推論コスト削減：技術フロンティア

クオンタイゼーション

返却形式: {"translated": "翻訳されたHTML"}

NVIDIAのNVFP4（4ビット浮動小数点）量子化はBlackwellで2〜3倍の高速化を実現しています。FP8レシピを用いたLlama 3.1 405Bではスループットが1.44倍向上します。Blackwellアーキテクチャは、前世代と比べて100万トークンあたりのコストを1/15にして推論を行います。

Speculative Decoding

Googleのオリジナル研究では、出力の劣化なしにトークン生成を並列化できることが示されました。NVIDIAの実装では最大3.6倍のスループット改善が報告されています。Llama 3.3 70Bでは、約3倍のスピードアップが達成されています。

KV Cache Optimization

vLLMのPagedAttentionは、同等のレイテンシで2〜4倍のスループットを提供します。TensorRT-LLMのKVキャッシュ早期再利用は、TTFTを最大5倍加速します。

Prefill-Decode Disaggregation

prefillが計算ボトルネックであり、decodeがメモリボトルネックであるという認識は、次のようなアーキテクチャ上の分離につながりました：

NVIDIAのアプローチ：Vera Rubin（HBM、288GB）がprefillを担当し、Groq LPU（SRAM、500MB）がdecodeを担当します。NVIDIA Dynamoソフトウェアがオーケストレーションします。
Googleのアプローチ：学習にはTPU 8t（Sunfish、Broadcom）、推論にはTPU 8i（Zebrafish、MediaTek）を使用します。いずれもTSMC 2nm上で実現され、量産はH2 2027です。

重要な指標の転換：FLOPs/秒はもはや主要な指標ではありません。Tokens/秒/wattとTTFT/ITLが、競争上の優位性を定義するものになりました。

5. The NVIDIA-Groq Integration

2025年12月24日、NVIDIAとGroqは約200億ドル相当の「非独占的な推論技術ライセンシング契約」に入っています。CEOのJonathan Rossと主要エンジニアがNVIDIAに参加しました。Groqは、新しいCEOのSimon Edwardsの下で独立企業として継続します。この契約にはGroqCloudは含まれていません。

GTC 2026では、統合がライブで実演されました。Vera Rubinがprefillを担当し、Groq LPUがdecodeを担当する——非対称な分散推論アーキテクチャです。その後NVIDIAは、RubinプラットフォームにおいてGroq 3 LPXを「7番目のチップ」として取り込んでいます。

戦略的重要性：NVIDIAはインクルージョン戦略を追求しています。一般的な計算に対してはGPU中心ですが、競合するのではなく、特殊な超低レイテンシ推論アーキテクチャを取り込む、という方針です。

6. What This Means for Engineers

推論の転換点は、エンジニアが最適化すべき対象を変えます：

1. サービング効率は、今や第一級のエンジニアリング分野です。 トークンスループット、レイテンシのパーセンタイル（TTFT、ITL）、およびトークンあたりコストは、後回しではなく、本番のKPIです。

2. エージェントのアーキテクチャは、推論コストを構造的に押し上げます。 すべてのツール呼び出し、すべての検証ループ、すべてのマルチエージェント間の引き継ぎがトークンを生成します。トークン効率の高いエージェント・アーキテクチャを設計することは、競争上の優位性です。

3. CPUワークロードが戻ってきています。 エージェント型AIはコードを実行し、サンドボックスを動かし、RL環境を管理します。CPU:GPUの比率は、1:8から1:4、さらには1:1へとシフトしています。

4. 推論スタックが分解されています。 prefllとdecodeは、別々の最適化ターゲットになりつつあります。異種コンピュート（GPU + LPU + TPU + CPU）を理解することが不可欠になっています。

5. AIのためのFinOpsは、もはや任意ではありません。 Claude Codeは月150〜250ドル/開発者のコストで、Cursorは1リクエストあたり370Kトークンを送信します。推論支出を追跡し最適化することは、本番運用の要件です。

Sources

Jensen Huang, GTC 2026 Keynote（2026年3月16日）— MarketWatch, TechRepublic, PANews
Sam Altman, Stratechery Interview（2026）— stratechery.com
Andy Jassy, Amazon 2025 Shareholder Letter — aboutamazon.com
Microsoft FY2025 Q3 Earnings Call（2025年4月30日）— microsoft.com/investor
Sundar Pichai, Google Cloud Next 2026（2026年4月22日）— blog.google
Intel Q1 2026 Earnings Call（2026年4月23日）— Fortune, The Next Platform, Motley Fool
Epoch AI, "OpenAI Compute Spend" — epoch.ai
Stanford HAI, AI Index 2025 — hai.stanford.edu
Gartner, AI-Optimized IaaS Forecast — 複数のソースで引用
Anthropic, Claude Code Pricing — code.claude.com/docs
Business Insider, Claude Code Token Estimates（2026年4月）
Groq-NVIDIA Agreement（2025年12月24日）— groq.com, CNBC
NVIDIA Blackwell Platform — nvidianews.nvidia.com

本記事は Leading.AI によるオープンソースの研究イニシアチブの一部です。本シリーズ全15冊はCC BY 4.0のもとで公開されています。

関連資料：

The Anatomy of Anthropic — Anthropicが自社のシリコンを設計している理由
A Trillion Dollars and a Firebomb — 文脈の中で見る1.85兆ドル規模のインフラ競争
The 10-80-10 Principle — エージェント型AIが人間とAIの出力比率をどう変えるか

Black Hat USA

AI Business

工場に訪れる自動化の地殻変動、米中と違う3つの勝ち筋

日経XTECH

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存