企業は、GPUの無駄が改善できません。なぜなら、その解決策が問題を悪化させるからです。アイドル(遊休)容量を解放すれば利用率は向上しますが、GPU価格を押し上げているのと同じ品薄がまさに理由で、どのチームも容量を返しません。結果として、機材はおおむね5%の稼働率のまま時間課金され、サイクルが締まっていきます。
この圧力――過去2年間にわたって何千もの企業に繰り返し起きた――が、Cast AIの2026年「State of Kubernetes Optimization Report」の理由です。同レポートは、調査ではなく実際の本番プロダクションクラスタを計測しました。その結果、ほとんどの企業がGPUフリートを利用率おおむね5%で運用していることが分かりました。また、アイドル容量が誰にも解放されない理由でもあります。Cast AIの共同創設者兼社長であるLaurent Gilは、この動きを2年間追跡してきました。「ネオクラウドの多くはクラウドではありません」とVentureBeatに語っています。「それは、ネオな不動産です。」
5%は、手をこまねいているだけのベースラインと比べて約6倍も悪い水準です。Gilは、人間が管理する現実的な目標として、日次サイクル、週末、通常のビジネスのパターンを織り込めば約30%だとしています。5%ということは、企業が最も高価なインフラのラインを、意図的に何もしない場合に得られるはずのごく一部の水準で運用していることを意味します。そしてそれは、クラウド計算の価格が20年のパターンを崩したのと同じタイミングで起きています。
AWSはreservedのH200 GPU価格を約15%静かに引き上げたと、1月の土曜日に正式な発表なしで実施しました。メモリ供給業者は、2026年のHBM3e価格を20%引き上げるよう押し上げています。2006年にAWSがEC2を立ち上げて以来、ハイパースケーラーが、引き下げるのではなく、reserved GPUの価格を実質的に引き上げたのは初めてです。現時点では、多くの企業のAI予算における前提――クラウド計算は毎年安くなる――が、最上位スタックではもはや成り立たなくなっています。
クラウド市場は二つに割れた
この値上げは、それが何を意味するかというより、品薄がどこに実際に突き刺さっているかを示すシグナルとして重要です。クラウド計算は2層に分かれました。コモディティ層では、従来どおりのディフレ(下落)がまだ効きます。H100のオンデマンド価格は下落している。2025年9月のGPU時間あたり約7.57ドルから、今日では約3.93ドルになっています。Lambda LabsとRunPodでは、H100が3ドル未満で、古いA100は約1.92ドルです。スポットでは一時期ほぼ入手不可能だったNvidiaのT4チップも、いくつかのAWSリージョンで、24時間の間で90%以上の確率で生き残っています。
一方、フロンティア層では逆です。Nvidiaは 2026年向けにH200チップ200万個の発注を受け取った一方、在庫は70万個でした。HBM搭載GPUのすべてを左右するTSMCの先進パッケージングは少なくとも2027年半ばまで予約で埋まっているとされています。AMDも、同じ逼迫を理由に自社の2026年の値上げについて警告した。3年の予約が2023年分から期限切れになることで軟化するはずだったA100の価格でさえ、上昇に転じてじわじわ戻り始めています。Gilの読みはこうです。FOMOが、古い世代にも漏れ始めています。どちらの層に企業のワークロードが載るかが、露出(影響の度合い)を決めます。
なぜ5%?前編:調達ループ
GPUがここまで高価なのに、どうしてフリートの稼働率が5%に到達するのでしょうか。企業のGPU調達についてのGilの説明は、私が聞いた中で最も分かりやすいものです。
企業にはGPUが必要です。彼らはハイパースケーラーのウェイトリストに登録します。何も起きません。数週間、時には数か月。すると電話がかかってきます。「48を求めましたよね。こちらには36しかありません。欲しければ差し上げますが、1年か3年のコミットメントが条件です。3年のほうが安い。もし不要なら、このリストにいる他の5社が引き取ります。」配分を失う恐怖は切実です。コミットメントに署名します。その後、そのワークロードが本当にその数のGPUを消費するのか、あるいはそのチップ世代が実際に稼働する内容に合っているのかは、現時点では決定的な論点ではありません。論点は、イエスと言うか、スロットを失うかです。
確保してしまうと、そのGPUは解放しづらくなります。再度入手するのには数か月かかり、容量を返しておきながら取得できなかったチームになりたくありません。だからフリートは時間課金のまま固定されます。使うか使わないかにかかわらず課金され続けます。Gilは、企業がオンデマンド料金で支払っていることもあると説明しました。1年の予約より概ね3倍高いにもかかわらずです。上乗せのプレミアムであっても、解放してしまうリスクを冒すより安全だと感じられていたためです。
5%という数字の中心にあるのは、このパラドックスです。利用率を改善するための一番分かりやすい方法は、使っていないGPUを解放することです。しかし、それらのGPUを高価にしているまさにその品薄が、誰も解放しない理由でもあります。結果としてフリートは過剰にコミットされたままになり、品薄は続き、価格は上がり、サイクルを始めたFOMOが強化されます。ループの1回転ごとに、次の出口(離脱)がより難しくなっていきます。
Forresterのデータも、別の角度から同じダイナミクスを裏づけています。主要アナリストのTracy Wooは、実務者がKubernetesの無駄を自己推定で約60%としていることを見つけました。これは、Cast AIが直接測定した値とほぼ一致します。Kubernetes実務で広く観察されるパターンが、このダイナミクスを説明しています。エンジニアは、実際に使うリソースの5〜10倍を要求するのが日常的です。過小プロビジョニングのコストは可視化されます(ページャが鳴る)。一方で過剰プロビジョニングのコストは見えません(クラウド請求書の1行で、エンジニアが目にすることはない)。
なぜ5%?後編:アーキテクチャループ
調達だけを直しても、良い水準の数字には到達しません。企業がすでに持っているGPU自体も、内側では無駄が多いからです。そして、この物語の後半であるアーキテクチャ面は、Cast AIと競合するチームによって独立に診断されつつあります。
Rayフレームワークの背後にある会社Anyscaleは、独自の分析を公開し、1月21日に、現代のAIワークロードはコンテナ化のされ方のため、フリートサイズがちょうど正しい場合でも、日常的にGPU利用率が50%を下回ることが多いと主張しました。単一のAIジョブはCPU負荷の高い段階(データのロード、前処理)、GPU負荷の高い段階(学習または推論)、そしてCPUへ戻る、という流れで進みます。これらすべてが1つのコンテナで動くと、GPUはライフサイクル全体に割り当てられますが、そのうち有用な処理をしているのはごく一部です。
Gartnerも独立して同じ結論に到達しています。2025年11月のオンプレミスAIインフラに関する調査ノートで、同社はサイロ化されたプロジェクト間で共有GPU利用を組み合わせることと、プロンプト処理とトークン生成を異なるハードウェアで行う非集約型(disaggregated)の推論を推奨しています。Nvidia自身のDynamo推論フレームワークも、先月MLPerf Inference v6.0向けに公開されたもので、同じ原理に基づいて構築されています。
2社のベンダーと、独立したアナリスト会社(Cast AI、Anyscale、Gartner)が同じ診断に収束しているのは、どれか1社の話よりも強いシグナルです。特に、そのうちの1社が他と競合している場合はなおさらです。この2種類の無駄は複合して作用します。調達時点でフリートを過剰にコミットし、コンテナがCPU前処理のためにGPUをアイドル状態のまま待たせるようなワークロードを走らせると、企業の結果は5%になります。片方だけを直しても、もう片方を直さなければ、潜在的な節約の大部分はテーブルの上に残ったままです。
40%の稼働率が実際に必要とするもの
GPUの開放がFOMO(取り逃し不安)で妨げられ、調達契約がすでに締結済みであるなら、残されたレバーは、すでにコミット済みのGPUに対して、より有益な処理を増やすことだけです。これが実務としての「稼働率の改善」が意味するところであり、ベンダーの製品を買う必要はどれもありません。
最も単純な存在証明は、書物の中で最も古い手法です。タイムゾーンをまたいだGPU共有です。アジアと米国の顧客に対してクレジット判定エンジンを提供する銀行なら、両市場に対して異なる時間帯に同一のGPUプールを使えます。Nvidiaは数年前に MIG(Multi-Instance GPU)とタイムスライシングのプリミティブ
を公開しています。多くの企業は手作業で行いません。運用面で退屈で、さらに誰も引き取りたくない調整コストを伴うからです。自動のスケジューラなら、疲れることなくそれを実現します。
100以上の本番AIモデルを稼働させているオーストラリアのデザイン基盤Canvaは、Anyscaleに対して、分散トレーニング実行時に GPU稼働率を100%に近い状態
で運用していると語っています。さらに、従来のセットアップに比べてクラウドコストをおおむね50%削減できたそうです。Cast AI自身のデータの中では、136台のH200 GPUからなるクラスタが、GPU共有、ビンパッキング(複数のワークロードを、適切なサイズのノードにより集約して配置すること)、スポット/オンデマンドのミックス適用後に、平均稼働率49%を維持しています。これはフリート平均の10倍で、飽和にはまだ届かない。ここまでが誠実な評価です。実際の企業フリートでは、開発・ステージング・本番の混在を含めれば、フル最適化でもおそらく稼働率は100%ではなく40%〜70%に留まります。それでも、5%よりは桁違いに良い。
注意点が1つあります。レポートの5%という数値は、専用トレーニングを行うAIラボを明示的に除外しています。混成された企業フリートよりも、より「フロンティアラボ」に近い組織であれば、すでにより高い稼働率が見えている可能性が高いでしょう。
調達ルートがもはや互換ではなくなった
では、2026年に企業は何を実際に変えるべきでしょうか。市場で利用可能なルートはもはや互換ではなく、各ルートは、供給と需要がどこに着地するかに対して異なる賭けを行っています。
調達ルート | 典型的なH100クラスの価格 | 利用可能性 | 中断リスク | コミットメント | 最適な用途 |
| ハイパースケーラのオンデマンド | $3.00〜$6.98 / GPU時間 | H100/H200では限定的 | なし | なし | 予測しにくいワークロード、短い実行 |
| ハイパースケーラの容量ブロック | $4.33〜$4.97 / GPU時間(2026年1月以降のH200) | 最大8週間前に予約可能;6か月のウィンドウ | ウィンドウ内になし | 中期 | 既知のウィンドウがあるスケジュール型トレーニング |
| ハイパースケーラのスポット | 最大90%割引 | 変動;H100/H200は供給が薄い | 高い(数分の警告) | なし | フォールトトレラントな推論、チェックポイント付きトレーニング |
| 専用GPUクラウド(CoreWeave、Lambda、RunPod、GMI) | H100で$1.99〜$3.99 / GPU時間 | 新しい世代ほど幅広く対応 | 低〜中 | 実行ごと、または短期予約 | 価格に敏感なチーム、柔軟なデプロイ |
| オンプレミスまたはコロケーション | 継続的な稼働率>60%で12〜18か月あたりに損益分岐 | 3〜9か月のリードタイム | なし | 3年以上のCAPEX | 高稼働を維持するワークロード、厳格なコンプライアンス |
| 分散型マーケットプレイス(Vast.ai、io.net、Aethir) | 多くの場合$1.00未満 / GPU時間 | 品質は非常にばらつく | 高い | なし | 実験用またはバッチ、非本番 |
これまでうまくいっていなかったパターンは、「1つのルートを選んで、多年計画としてロックインする」ことです。より防御力のある2026年のデフォルトは、分断に合わせてルートを混在させることです。そこに居場所があるワークロードにはコモディティ提供者を使い、確実にウィンドウが必要なワークロードにはハイパースケーラのCapacity Blocksだけを使います。
引っ張る価値のある5つのレバー
以下のいずれも、すでにコミットされたキャパシティを買い戻す必要はありません。
継続的なリサイズ(rightsizing)、一度きりの設定ではない。デプロイ時に設定するリソース要求は、ほぼ確実に6か月後には間違っています。 Karpenter、OpenCost、および Kubecost はオープンソースの選択肢です。 Cast AI、ScaleOps、nOps、および PerfectScaleは、リサイズ自体を自動化します。Cast AIは、継続的なリサイズによって、顧客ベース全体で平均するとプロビジョニング済みCPUが約50%削減できると報告しています。
リージョンごとのスポット配置、特にT4クラスの推論。Cast AIの生存曲線データによると、T4スポットの中断リスクは、eu-west-3で24時間あたり約10%から、eu-central-1やus-east-1で80%まで幅があります。リージョン選択はレイテンシだけでなく、信頼性の判断です。
MIGとタイムスライシングによるGPU共有。 NvidiaのMIG機能は、A100、H100、H200のチップを、専用の計算とメモリを持つ分離されたインスタンスに分割します。 vLLMとDynamoは、継続的なバッチングと分離(disaggregated)された推論を実装しています。オープンプ リミティブであり、ベンダー契約は不要です。
分離(disaggregated)したランタイム。 Rayなら、CPU負荷の高いデータ準備を、GPU負荷の高いトレーニングや推論から独立してスケールできます。
コミットメントの再バランス。 Reserved Instances(予約インスタンス)やSavings Plansは、ワークロードの変化に伴ってドリフトします。Cast AI、nOps、そしてVantageは、コミット済みキャパシティに対する稼働率を追跡し、分割(ミックス)を自動的に調整します。
結論
今年、多くの企業がまだ尋ねていない最も実務的な疑問はこれです。そもそも本当にH200が必要なのか?
H200は、非常に大規模なモデル(70B+パラメータ)で、非常に長いコンテキスト(128k+トークン)向けに設計されています。H200の141GBメモリ(H100の80GBのほぼ倍)は、チップが減速せずに負荷を処理できるようにするためのものです。より小さなモデル、微調整(fine-tuned)された派生モデル、量子化された推論、そして実際に顧客へ出荷されるほとんどの本番AIについては、Cast AIによれば、H100はGPU時間あたりおおむね40%少ないコストで同じ仕事ができます。A100でも、だいたい60%少なく済むことが多いです。
デフォルトの答えとして「単一の汎用GPU」を置く時代が終わりに近づいています。 汎用GPUをデフォルト解として使う時代
です。チップ選定は、世代ごとの調達判断ではなく、ワークロードごとのルーティング判断になりつつあります。
Gil自身の観察が、この点をさらに鋭くします。稼働率80%なら、B200はトークンあたりのユニットコストで本当にA100より優れています。より高性能なのは時間あたりの性能であって、時間あたりの高額さを上回るためです。稼働率5%では、その計算は逆転します。プレミアムチップの上乗せが、無駄をさらに増幅します。使いこなせていない状態で最新チップを買うのは、FOMOループの中で最も高価なバージョンです。
最初のレバーは無料で、ソフトウェア購入というよりはワークロード監査です。このレバーを動かすためにGPUを解放する必要はありません。本番稼働におけるGPUを活用したあらゆるワークロードは、次の1つの問いに照らして見直す価値があります。「そのワークロードが実行されているチップは、本当にその用途に適合しているのか」。2026年に行われるH200の購入のかなりの数は、割り当てが通ったからという理由であって、ワークロードがそれを必要としていたからではなかったことが判明するでしょう。これ以上の予約容量に支出する前に、ランタイムのアーキテクチャを修正してください。分割の方針に合わせて、コモディティ枠と予約枠を混在させるのです。どちらか一方だけを選ぶのではありません。
より広いGPU市場が最終的に再調整されるかどうかは別の問題であり、2026年の予算を賭けるに値する問いではありません。供給が追いつく可能性があります。メモリ容量の余裕が改善するかもしれません。専用の推論向けシリコンが、需要をH200枠から引き離す可能性もあります。これらはすべて起こり得ます。しかし、確実なことは何もありません。確実なのは、調達とランタイムは、2つの側面から見た同じ問題だということです。FOMO(取り逃し不安)が前段で過剰コミットを後押しし、一方でコンテナのアーキテクチャが、後段では過剰にコミットされた保有クラスターをアイドル状態のままにしてしまいます。これらを1つのループとして扱う企業は、その循環を断ち切れます。2つの別々の予算項目として扱い続ける企業は、最も高価なインフラをなおも5%の稼働率で動かすために、払い続けることになります。




