GPU稼働率5%:企業が無視できない“4,010億ドル”のAIインフラ問題

VentureBeat / 2026/5/8

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market Moves

要点

  • Gartnerは、2026年にAIインフラ向けの世界的支出が約4,010億ドル増えると見積もっている一方で、企業の実地監査では平均GPU稼働率が約5%にとどまっている。
  • 稼働率の低さは、未使用GPUを手放したり転用したりしにくい調達・予約の仕組みによって自己強化され、キャパシティの“抱え込み”が長期の制約になる。
  • 多くの企業はGPUのCapExを伝統的な3〜5年の償却サイクルで固定しており(ハイパースケーラーは概ね5年)、実際の利用量に関係なく固定費として残る。
  • 資産の老朽化に伴い、投資の妥当性を問う段階から、「すでに導入したGPUから経済的な成果を最大化できるか」へと焦点が移りつつある。
  • 上位企業では、真のボトルネックはGPUの“不足”よりも、生産性や運用の準備度(データ、ガバナンス、アーキテクチャ)であることが多く、支出と成果の大きなギャップが生じている。

過去24か月、あらゆる過剰に見積もったデータセンターと膨らみ続けるIT予算を正当化したのは、ひとつの物語だけでした――GPU確保競争です。シリコンは新しい石油であり、H100は密輸品のように取引された。今すぐ予備キャパシティを確保しないと、企業は取り残される。

そして今、その請求書が回ってきました。CFOが注目しています。Gartnerの推計によると、AIインフラは今年新たに4010億ドルの支出が上乗せされるということです。ところが実世界の監査は、より暗い実態を示しています。エンタープライズにおける平均GPU稼働率は5%で行き詰まっているのです。 

この稼働率の下限が、自己強化型の調達ループによって押し上げられており、アイドルGPUの放出がほぼ不可能になっています。状況をさらに切迫させているのが、いま到来しているCapEx(設備投資)の現実です。多くの組織は、従来の3〜5年の減価償却サイクルのもとでGPUキャパシティをロックインしてきましたが、ハイパースケーラーは5年です。つまり、「GPU確保競争」のピーク時に購入したインフラは、実際にどれだけ使っているかにかかわらず、固定費のままということになります。

これらの資産が古くなるにつれ、投資が正当だったかどうかはもはや問題ではありません。いかに生産的にできるか、が問題です。十分に使われないGPUは、単にアイドルのリソースではありません。いまや、測定可能なリターンを生み出さなければならない減価償却中の資産なのです。これは、マインドセットの転換を迫ります。――キャパシティを獲得することから、すでに投入済みのものの経済的なアウトプットを最大化することへ。

確保競争は余興だった

「ティア1」企業――IntuitやMastercardやPfizerのような存在――にとって、ボトルネックの本質は、ほとんどの場合「アクセス」ではありませんでした。AWS、Azure、GCPとの深い関係性を活用して、これらの組織はキャパシティ予約を確保しましたが、それはアイドル状態で、社内チームはデータの重力、ガバナンス、アーキテクチャの未成熟さに苦しんでいたのです。

業界の「逼迫(scarcity)」という物語は、この非効率のための都合のよい煙幕でした。見出しではサプライチェーンの遅延に焦点が当たっていましたが、内部の現実は、巨大な生産性のギャップでした。組織は活動は多い(チップを買う)のに、アウトプットは乏しい(ほぼゼロの有用トークンしか生成しない)。

稼働率5%では、計算がそもそも成り立ちません。シリコンに費やす1ドルごとに、95セントは実質的にクラウド事業者の損益の寄付です。ほかのどの部署でも、95%の無駄は解雇レベルの問題になりかねませんが、AIインフラではそれが「備え(preparedness)」と呼ばれていただけでした。

Q1トラッカー:市場は方向転換中

VentureBeatのQ1 2026 AIインフラ&コンピュート・マーケット・トラッカーは、パニック期が公式に終わったことを裏づけています。トラッカーは統計的に決定的というより方向性を示すものです――1月は53人の適格な回答者を調査し、2月は39人――しかし、両方の波を通じたパターンは一貫しています。私たちが「ITの意思決定者にとって、今日実際にプロバイダ選定を左右しているのは何か」を尋ねたところ、結果は急速に方向転換する市場の姿を示していました:

  • アクセスの崩壊:「GPUへのアクセス/利用可能性」要因は、単四半期で20.8%から15.4%へ低下――主要な懸念から90日で二次的な懸念へ。

  • 現実的な転換:「既存のクラウドおよびデータスタックとの統合」は、両方の波で約43%のままトップ優先事項として維持された一方で、セキュリティとコンプライアンス要件は41.5%から48.7%へ急増し、統合との差をほぼ埋めました。

  • TCOの要請:トップ優先事項としての「コスト・パー・インファレンス/TCO(総保有コスト)」は、単四半期で34%から41%へ跳ね上がり、性能を上回って支配的な調達レンズになりました。

「白紙の小切手」の時代は終わりました。インファレンスこそが、AIを“勘定項目”に変えるものです。 

学習や、さらにはファインチューニングまでは戦術的なプロジェクトでしたが、インファレンスは戦略的なビジネスモデルです。ほとんどのエンタープライズにとって、そのモデルのユニットエコノミクスは現状では持続不能です。最初のパイロット段階では、定額ライセンスやバンドルされたトークンの取引によって、アーキテクチャ上の無駄が許容されていました。トークンが事実上の沈没コストだったため、チームは長い文脈を扱うエージェントや複雑なリトリーバル・パイプラインを作ってしまったのです。

業界が2026年に利用量ベースの価格設定へ移行するにつれて、同じアーキテクチャは負債になっていきます。95%の時間アイドル状態のインフラスタックにメーター課金が適用されると、有用トークンあたりのコストが、プロジェクトが本番稼働へ移った瞬間から“緊急の勘定項目”になります。

活動から生産性へ

私たちのQ1データで示された転換は、単なる予算の修正以上の意味があります。AIリーダーの成功がどのように測られるのか――その測定基準そのものの根本的な変化なのです。

過去2年間、成功とは「スタックを“確保する”こと」でした。効率の時代では、成功は「スタックを“絞り出す(squeeze)”こと」です。だからこそ、コスト最適化プラットフォームは、調査において計画されている予算増額が最大となり、組織が「GPUをもっと買うことはしばしば間違いだ」と理解し始めたことで、最上位の優先事項になったのです。

IT利用者はますます、「使っていないGPUの支払いを止めるにはどうすればいいか」を問うようになっています。彼らは、GPUの稼働(GPU activity)(電源が入っているチップの数)を測ることから、GPUの生産性(GPU productivity)(費やした1ドルあたりに生成される有用トークン数)へと移行しています。

低稼働という“贅沢”は、いまや負債です。企業AIの次の一手は、すでに手元にあるシリコンが自分自身で稼いでくるようにする方法を見つけることに、より焦点が移っています。

鋳造権を握る:トークン消費者か、生産者かの選択

組織がPoC(概念実証)から本番へ移行するにつれて、最新のGPUではなく、トークン生成のためのアーキテクチャに焦点が移っています。この新しい経済現実の中で、どの企業もトークン経済における自社の役割を決めなければなりません。あなたは、モデル提供事業者に対して永続的な税を払い続ける“トークン消費者”になるのか、それともインフラと、そのインフラに伴うユニットエコノミクスを握る“トークン生産者”になるのか?

この選択はコストだけではありません。組織が複雑性をどう扱うかを決めることでもあります。推論インフラを所有するとは、KVキャッシュの永続化を克服し、ストレージ・アーキテクチャを理解し、許容できるレイテンシ保証の範囲を把握し、電力制約に対処することです。それに加えて、電力の利用可能性、データセンターの規模感、運用の複雑さといった、実世界のエンタープライズ上の制約がもたらされます。これらは、AIがどこまで・どれだけ速くスケールできるかに直接影響します。

この課題の核心にあるのが、KVキャッシュの経済性です。GPUメモリに文脈を保存すれば性能は得られますが、プレミアムなコストがかかり、同時実行性が制限され、トークンあたりのコストが押し上げられます。KVキャッシュを共有のNVMeベースのストレージへオフロードすれば、再利用性が高まり、プリフィルのオーバーヘッドを減らせる可能性がありますが、レイテンシとシステム設計のトレードオフが生じます。NVMeコストが上昇し、GPUメモリが依然として希少であるほど、組織は性能と効率のバランスを取らざるを得なくなります。

トークン生産者にとって、メモリ、ストレージ、電力、運用にまたがるこれらのトレードオフを管理することは、大規模に事業を行ううえでの“業務コスト”にほかなりません。ほかの人々にとっては、オーバーヘッドが高すぎて、別の道が必要になります。

特化型クラウドへの転換

VentureBeatのQ1トラッカーは、市場がすでにこの戦略に投票していることを示しています。エンタープライズのトップの戦略的方向性は、より多くのワークロードを特化型AIクラウドへ移すことです。このカテゴリは、今回の最新調査で30.2%から35.9%へと伸びています。

これらのプロバイダー(Coreweave、Lambda、Crusoeを含む)は進化を続けています。当初は、モデルビルダーや学習負荷の高いワークロードにサービスすることで存在感を得ましたが、収益構成は急速に変わりつつあります。今日では学習が事業ボリュームの約70%を占めていますが、推論の顧客は今や30%になっています。この比率は、2026年末までに反転すると見込んでいます。企業推論のロングテールがスケールし始めるためです。

これらの特化型プロバイダーが戦略的な注目を集めているのは、単にGPUアクセスを販売しているわけではないからです。彼らは「インフラの摩擦を取り除くこと」を売っています。ストレージ、ネットワーキング、スケジューリングといったフルスタックを、汎用のクラウド運用ではなく「推論優先」の経済性に最適化しています。トークン生産者を目指す組織にとって、これらの環境は従来のハイパースケーラーよりも効率的な工場フロアを提供します。

マネージド推論の台頭

自社で推論ファクトリーを効率的に構築・運用できないと理解した組織では、別の動きが生まれています。私たちの調査では、推論のアウトソーシングやマネージドLLMプロバイダーを評価する意向が、1四半期で13.2%から23.1%へと跳ね上がったことが分かりました。

このほぼ10ポイントの増加は、推論インフラを社内で構築することがしばしば隠れたコストを生む、という気づきを反映しています。Baseten、Anyscale、FireworksAI、Together AIのようなプロバイダーは、vLLMのチューニングや分散GPUスケジューリングの専門家になることを顧客に求めず、予測可能な価格とサービスレベル契約(SLA)を提供します。

このモデルでは、企業はトークンの消費者であり続けますが、スタックの複雑性を価格の面で切り離したいと積極的に考えている存在です。社内で推論を運用することが現実的なのは、運用上の負担を正当化できるだけのボリュームがある場合に限られる、ということを学んでいます。

ハイブリッド・スタックの簡素化

生産者になる選択も、新しい層のハイブリッドクラウドAIプラットフォームによって、より簡単になりつつあります。Red Hat、Nutanix、Broadcomのソリューションは、すべての企業にシステムインテグレーターになることを強いることなく、オープンソースの推論インフラを運用可能な形にすることを目的に設計されています。

課題は、最新の推論がvLLM、Triton、Kubernetesのような複雑なオープンソース構成要素に依存している点です。これらのシステムは、急速に進化するスタックに依存しています。高スループット配信のためのvLLM、モデルオーケストレーションのためのTriton、分散実行のためのRay——それぞれ強力ですが、スケールして運用する際に、統合・チューニング・運用を行うには複雑さがあります。ほとんどの企業にとっての難しさは、これらのツールへのアクセスではなく、それらを信頼性のある、本番品質の推論パイプラインとしてつなぎ合わせることです。これらの新しいプラットフォームが掲げる約束は移植性です。つまり、一度推論スタックを構築すれば、ハイパースケーラー、専用クラウド、オンプレミスのデータセンターなど、どこにでも展開できるということです。

私たちのQ1 2026 AI Infrastructure & Compute Market Trackerは、DIYだがマネージドなこれらのスタックに対する関心が高まっていることを裏付けています。1月の11.3%から2月には17.9%へと上昇し、プロバイダー採用に加えて、オープンソースを取り込む組織が着実に増えています。この柔軟性は重要です。なぜなら、企業AIは1つの場所に集約されることはないからです。推論ワークロードは、データがどこにあるか、どれほど機微性があるか、そしてそれを動かすコストがどこで最も低いかに基づいて分散されます。

トークン経済の次のフェーズで勝つのは、「制限によって標準化を強制する」プラットフォームではありません。必要に応じて、消費者と生産者の間を切り替えられるようにする、移植性による標準化を提供できるところが勝者になります。

効率のアーキテクチャ:生産性を引き出す技術的レバー

利用率5%の壁を解消するには、単にソフトウェアを良くするだけでは不十分です。効率スタックの構造的なオーバーホールが必要です。多くの組織が、「稼働が高いこと」と「生産性が高いこと」は同じではないと気づき始めています。クラスタがフル稼働で回っていても、最初のトークンまでの時間(time-to-first-token)が高すぎたり、推論リクエストがプリフィルに時間を使いすぎたりするなら、経済的に非効率なままになり得ます。

推論の経済性は、コスト1単位あたりにクラスタが生成する「有用な出力」の量によって決まります。そのためには、GPUの活動量を測ること(単にチップに電源を入れていること)から、GPUの生産性を測ることへの転換が必要です。この生産性を達成するには、3つの技術的レバー——ネットワーク、メモリ、ストレージスタック——が鍵になります。

ネットワーク:待ち時間のコスト

ネットワークは、しばしば見過ごされがちな推論経済性の土台です。分散環境では、データが計算ノードとストレージの間を移動する速度によって、GPUが実際に働いているのか、単に待っているだけなのかが決まります。

このデータ移動において、RDMA(Remote Direct Memory Access)は譲れない標準になりました。RDMAによりデータはCPUを迂回してメモリとGPUの間を直接移動できるため、従来のネットワークアーキテクチャが生み出すレイテンシの急な跳ね上がりが解消されます。実用的には、RDMA対応のアーキテクチャは同時実行ワークロードにおいて、GPUあたりの出力を10倍規模で増やせる可能性があります。

このレベルのネットワークがない場合、企業はラック内の各チップに対して実質的に「待ち時間税」を払っているのと同じです。モデルのコンテキストウィンドウが拡大し、多ノードオーケストレーションが標準になっていくにつれて、ネットワークはクラスタが高速な工場なのか、それともボトルネック化した倉庫なのかを決めます。

メモリ課税への対処:共有KVキャッシュ

モデルが大きくなり、コンテキストウィンドウが数百万トークンへと拡大するにつれて、プロンプト状態を毎回作り直すコストは持続不可能になってきました。大規模言語モデルは、セッション中にコンテキストを維持するために、キー・バリュー(KV)キャッシュに依存します。従来はこれらをローカルのGPUメモリに保存していましたが、これは高価で容量にも限界があります。

その結果、同時実行が増えるほど単位経済性が破壊される「メモリ課税」が発生します。これを解決するため、業界は永続的な共有KVキャッシュのアーキテクチャへと移行しています。複数のGPUノードに冗長に分散して保存するのではなく、高性能ストレージ上にキャッシュを中央集約して保持することで、プリフィルのオーバーヘッドを減らし、コンテキスト再利用を改善できます。

新しいアーキテクチャはすでにその効果を証明しつつあります。Nvidia BlueField-4 DPUを用いたVAST C-nodes上で動作するVAST Data AI Operating Systemは、ポッド規模の共有KVキャッシュを可能にし、従来のストレージ階層を圧縮します。同様に、Nvidia-Certified Storageの検証を最初に達成したオブジェクトベースのプラットフォームであるHPE Alletra Storage MP X10000は、大規模スケールでボトルネックを引き起こす調整(コーディネーション)課税なしに、推論リソースへデータを供給することを目的に設計されています。WEKA.ioもこの領域の別のプロバイダーです。 

圧縮の最前線

物理ハードウェアの領域を超えて、新しいアルゴリズムの貢献が、推論メモリで可能にすることの限界を再定義しています。Googleが最近ICLR 2026で発表したTurboQuantは、この変化の規模を示しています。TurboQuantは、精度の損失ゼロでKVキャッシュを最大6倍まで圧縮します。

このような手法により、最小限のメモリフットプリントで大規模なベクターインデックスを構築し、ほぼゼロの前処理時間で済ませることが可能になります。企業にとってこれは、レイテンシの急な上昇を引き起こしがちな「リビルド・ストーム」なしに、同じハードウェア資産上でより多くの同時ユーザーを受け入れられることを意味します。注意点はあります。圧縮の標準は依然として争点であり、オープンソースの合意は生まれていません。この領域は、GoogleとNvidiaの間の独自スタック戦争として形作られつつあります。

ストレージを財務上の意思決定として捉える

ストレージはもはや単なるバックエンドの判断ではありません。財務上の意思決定です。Dellによれば、Dell PowerScaleのようなプラットフォームは、従来のアプローチと比べて最初のトークンまでの時間を最大19倍高速化できています。高性能な共有ストレージと、メモリ集約型のデータアクセスを、貴重なGPUリソースから切り離すことで、これらのプラットフォームは推論をより効率よくスケールさせます。

ストレージ層がGPU負荷の高いワークロードに対してデータを途切れることなく継続的に供給できると、コストのかかるリソースがアイドル状態に置かれるのを防げます。効率化の時代における目標は、「データ移動のため」ではなく「トークン生成のため」にすべてのサイクルを費やすことで、5%の利用率の壁を押し上げることです。

しかしスタックがより効率的になるほど、境界線(ペリメータ)はより脆くなります。そこに力を与えるデータが信頼できないなら、高生産性のトークンは価値を持ちません。

主権とエージェント型の未来:信頼の基盤を構築する

AIで投資収益(リターン)を得るための最終的な障壁は、技術的なボトルネックではなく信頼のボトルネックです。企業のAIが単純なチャットボットから自律エージェントへと移行するにつれ、リスクの性質は変化します。エージェントが有用であるためには、社内の内部システムや知的財産への深いアクセスが必要です。主権(ソブリン)アーキテクチャがない場合、そのアクセスは、多くの組織が管理できる体制を備えていない負債(リスク)を生み出します。

VentureBeatによる、AIガバナンスの現状に関する調査は、深刻な断絶を浮き彫りにします。多くの組織は自社のAI環境を確保できていると考えている一方で、72%の企業は、自分たちが考えているレベルの制御とセキュリティが備わっていないと認めています。このガバナンスの「幻影」は、エージェント型システムが本番環境へ移行する際に特に危険です。過去12か月で、AIエージェントに関連するセキュリティインシデントについて、88%の経営幹部が報告しました。

主権をアーキテクチャ原則として捉える

データの主権は、しばしば地理的・規制的なチェックボックスとして扱われます。戦略的な企業にとっては、それは中核となるアーキテクチャ原則として扱われるべきです。これは、エージェント型ワークフローを支えるデータについて、統制(コントロール)、系譜(ラインエージ)、説明可能性(エクスプレイナビリティ)を維持することに関係します。

そのためには、従来のメダリオン・アーキテクチャをモデルにした、新しいデータ成熟度へのアプローチが必要です。この枠組みでは、データは「使いやすさ」と「信頼」の層を通じて移動します。ブロンズ層での生の取り込みから始まり、洗練されたゴールドへ、そして最終的にプラチナ品質の運用データへと進みます。AI推論(インファレンス)も、この同じ規律に従わなければなりません。

エージェント型システムには、単に利用可能なコンテキストが必要なだけではありません。信頼できるコンテキストが必要です。エージェントに誤ったデータを渡す、または非主権のエンドポイントにセンシティブな知的財産を公開することは、ビジネス上のリスクと規制上のリスクの両方を生み出します。区分け(コンパートメント化)は、最初からスタックに組み込まれていなければなりません。組織は、どのモデルやエージェントが特定のデータ層にアクセスできるのか、どのような条件のもとで、そしてどのような系譜が紐づくのかを把握する必要があります。

AIをデータへ持ち込む

エージェント型の未来における根本的な問いは、「データをAIに持っていくべきか、それともAIをデータへ持っていくべきか」です。極めてセンシティブなワークロードでは、データを集中型のモデル・エンドポイントへ移すことは、多くの場合誤った答えになります。

プライベートAIへの移行――推論が、信頼できるデータが存在する場所のより近くで行われる形――は勢いを増しています。このアーキテクチャでは、データの境界線を維持するために、主権のあるクラウド、プライベート環境、またはガバナンスされた企業向けプラットフォームを使います。

ここで「トークンプロデューサー(トークン生成側)」としての選択が、セキュリティ上の利点になります。推論スタックを自社で所有することで、企業はインフラ層でガバナンスと系譜を強制できます。エージェントを成立させるために使われる知的財産が、組織の管理下から決して出ていかないことを保証します。

次のプラットフォーム戦争

AIの覇権を決めるのは、誰が最大のGPUクラスターを保有しているかではありません。勝つのは、最良の推論経済性(インファレンスのコスト構造)と、最も信頼できるデータ基盤を持つ企業です。

効率化の時代を勝ち取る組織とは、有用なトークンあたりのコストが最も低く、本番環境への最短ルートを提供できるところです。彼らは、囲い込み(ホーディング)の後遺症を乗り越えて、生産的なアウトプットに焦点を移した企業でしょう。

AIで投資収益(ROI)を実現するには、マインドセットの転換が必要です。これは、スタックを確保する文化から、スタックを絞り出す(シンクする)文化へ移ることを意味します。アーキテクチャ上の厳密さが求められ、トークン単位でのROIに焦点を当てること、そして主権へのコミットメントが必要です。組織が、自社でトークンを効率的かつ安全に生成できるようになれば、AIは科学プロジェクトから、経済的に反復可能なビジネス上の優位へと移行します。

それが、ROIが現実になる方法です。そこでこそ、次世代の企業優位が構築されます。

Rob StrechayはContributing VentureBeatアナリストであり、データ基盤とAIシステムに焦点を当てたリサーチ&アドバイザリーファーム、Smuget Consultingのプリンシパルです。

開示:Smuget Consultingは、多くのテクノロジー企業との間で、調査、コンサルティング、アドバイザリーサービスに関与している(または関与してきた)場合があります。この記事で言及されている企業がそれに含まれることもあります。本稿で述べられる分析および見解は、アナリスト個人に固有のものであり、検証のために提供されている可能性のあるデータやその他の情報は、VentureBeat全体のものではありません。