より安いトークン、より大きな請求書:AIインフラの新しい計算式

VentureBeat / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisIndustry & Market Moves

要点

  • 企業のAI投資は、基盤モデルの学習から、エージェント型AIによって加速される多数の同時推論ワークロードを回すためのインフラへと移行している。
  • 1トークンあたりの推論コストは約1桁分下がった一方で、全体のAIコストは上昇しており、価格低下よりも消費が急増する「需要(消費)が価格低下に追いつかない」=ジェヴォンズのパラドックスが示唆されている。
  • その結果、エンタープライズのITでは、稼働率やスループットと並んで「トークンあたりコスト」や「GPU稼働率」が主要な運用指標として重視されつつある。
  • コスト最適化は、使用するモデル、実行場所、プロンプトの作り方など多くの変数が絡むため直感的には難しく、継続的なチューニングを要するエンジニアリング課題だとされている。
  • エージェント型の本番ワークロードは短命で予測不能なため、GPU・ネットワーク・ストレージに従来のインフラ以上の負荷をかけ、設計前提の限界が露呈している。

提供:Nutanix


企業がAIの実験から本番環境への導入へ移行するにつれ、主なコスト要因は基盤モデルの学習から、エージェント型AIが加速装置となって、スケールした際に数千もの同時推論ワークロードを実行するために必要となるインフラへと移りました。

初期の企業向けAIプロジェクトでは、大規模な学習ジョブが少数あり、予定されたタイミングで実行されるのが一般的でした。しかし、本番のエージェント型環境では、GPU・ネットワーク・ストレージのリソースを、従来のインフラが想定してこなかった形で消費する、短命で予測不能なリクエストに対する継続的なサポートが必要になります。企業のテクノロジー責任者にとって、この転換はAIの採算を左右する決定的な要因として、インフラ効率を「勝負どころ」にしています。

「AIアシスタントを使うすべての従業員、あらゆる自動化されたワークフロー、すべてのエージェント・パイプラインは、推論のためのモデルを必要とし、また大量のトークンを生成します」とNutanixのプロダクト担当VPであるAnindo Senguptaは述べます。「こうした推論リクエストはGPU基盤に着地し、専用のネットワークを通過し、これらのAIワークロードを支えるように設計されたストレージシステムからデータを取得します。」

トークンあたりのコストが中核となるインフラ指標になる理由

トークンあたりの推論コストは、この2年ほどの間におよそ1桁分(オーダー・マグニチュード)減少しています。要因は、モデル効率の改善と、クラウド事業者間の競争圧力によるものです。企業のAIは安くなるはずだ、という期待があります。しかしSenguptaは、「総コストが上昇しています」と述べ、経済学者がいうジヴォンズのパラドックスを指摘します。つまり、ある資源が使うほど安くなると、価格が下がる以上に消費が増えやすい、という現象です。

そのため、過去数年でトークンあたりのコストがほぼ10分の1に下がった一方で、消費は100倍以上に増えています。その結果、トークンあたりのコストとGPUの利用率が、企業ITにおける主要な運用指標になりつつあり、稼働率やスループットといった従来の指標に並ぶ位置づけになっています。

「トークンあたりのコストとは、推論モデル提供のための総所有コストのことです」とSenguptaは言います。「利用率とは、GPUの資産を持った後に、それから最大のリターンを得られているかを確かめることです。これらの指標は、企業ITのリーダーにとって重要になります。」

このことを難しくしているのは、関係する変数の多さです。トークンコストは、組織がどのモデルを実行しているか、ワークロードがどこで実行されるか、プロンプトがどのように構造化されているかによって変動します。

「コストには直感的に管理できないほど多くの変数があります」とSenguptaは付け加えます。「最適化はエンジニアリングの課題であり、継続的な調整が必要です。」

エージェント型ワークロードが従来のインフラの限界をあらわにする

本番のエージェント型AIは、従来の企業向けインフラが想定していなかったワークロードのプロファイルを導入します。典型的なデータセンターの導入は、予測可能な負荷と長い計画サイクルを前提に構築されます。エージェント型環境では、短い推論リクエストの予測不能で高頻度なバーストが発生し、ネットワーキングとストレージに新たな要求を突きつけ、またほとんどの調達サイクルが許容するよりも速いペースで状況が変化します。

エージェント型AIを支えるインフラは、CPUベースの計算とも構造的に異なります。GPUトポロジ、高速インターコネクト、エージェントのメモリやKVキャッシュのための並列ストレージシステム、そしてDPUオフロードに対応できるネットワークアーキテクチャなどは、新しい機能を表しており、それに応じた新しい運用スキルが必要になります。

サイロ化されたインフラは、こうした課題をさらに増幅させます。GPUリソース、ネットワーク、データアクセスが独立して管理されると、スケジューリングの非効率が積み重なり、利用率が下がり、コストが上がります。分断されたスタックで運用している組織は、コストの高いGPU資産を十分に活用できない傾向がある一方で、ストレージやネットワークのスループットで同時にボトルネックを抱えがちです。

統合スタックと、フルスタック・アーキテクチャを選ぶべき理由

インフラベンダー各社の間で生まれてきている対応は、本番のAIワークロード向けに特化して設計された、強く統合され検証済みのフルスタック・プラットフォームへの移行です。前提は、計算・ネットワーキング・ストレージ・ソフトウェアの各レイヤーにまたがるエンドツーエンドの最適化によって、別々のベンダーの「ベスト・オブ・ブリード」部品を寄せ集めるよりも、利用率が向上し、トークンあたりコストが下がる、というものです。

Nutanixのエージェント型AIソリューションは、この課題に対する一つのアプローチです。Nutanix AHVハイパーバイザー上に構築された同ソリューションは、Nutanix Enterprise AIおよびNutanix Kubernetes Platformに基づき、エージェントのオーケストレーションが実行される従来の計算レイヤーと、推論が実行される加速計算レイヤーの両方を管理することを目的に設計されています。 同社は、GPU・CPU・メモリ・DPUを仮想マシンにどのように割り当てるかを自動的に最適化するための、AHV向けNVIDIAトポロジー対応強化を導入しており、さらにGPUの稼働サイクルを解放し、セキュリティを損なうことなくスループットを維持するために、Nutanix Flow 仮想ネットワーキングをBlueField DPUへオフロードしています。

このソリューションは、NVIDIA NIMマイクロサービスおよびNemotronを含むオープンソースのモデルを即時デプロイでき、またAnthropic、Google、OpenAIなどのフロンティア・クラウドLLMへのアクセスを統制するAIゲートウェイを統合しています。さらに、このゲートウェイは、きめ細かなアクセス制御を可能にするためのモデルコンテキストプロトコル(MCP)を実装し、エージェントが企業データに接続できるようにします。さらに本ソリューションはCiscoのインフラで動作するため、組織はすでに運用しているインフラ上にデプロイできます。

「AHVハイパーバイザーとFlow仮想ネットワーキングから、Kubernetesプラットフォームまでを統合することで、AIプロジェクトの進行を遅らせるサイロを取り除けます」とSenguptaは説明します。

プラットフォームチームと開発者の俊敏性は、互いにトレードオフできない

エージェント型AIの導入に伴って拡大する組織的な緊張の一つは、共有インフラを管理するプラットフォームチームと、その上でエージェントアプリケーションを構築・運用する開発者の関係です。これらのグループはこれまで、異なるツール、異なる優先順位、異なる時間軸で動いてきましたが、Senguptaは、技術が変わってもこの中核となる力学は変わっていないと主張します。

「プラットフォームチームは、エージェント型AIの構築者に提供できる、ビジネスニーズにも準拠したセルフサービスのAI機能カタログを今後も提供し続けます」とSenguptaは述べます。「成熟したAIチームは、GPU利用率だけでなく、開発者が求めるイノベーションのスピードに合わせて迅速にAIインフラを提供できるようにする運用モデルを作り上げる点でも、素晴らしい仕事をするでしょう。そこが成功のために非常に重要です。」

GPU利用率を最も効果的に管理している組織は、AI導入の道のりがより先に進んでいる傾向があり、より確立された運用モデルと、コストの説明責任がより明確です。導入の初期段階にある組織では、今行われているインフラ設計や運用モデルの意思決定が、コストや複雑さが制限要因にならずに、AIプロジェクトをパイロットから本番へ移行できるかどうかを左右します。

AIファクトリーの運用モデル

企業のAIインフラにおいて新たに台頭している枠組みが、AIファクトリーです。これは、スケールした状態でAIワークロードを生産し、かつ実行するための目的特化型の環境です。課題は、多くの組織では何年もの間、従来の計算と加速計算の両方を同時に運用する必要があるため、俊敏性を損なうことなく、両方の技術パラダイムをまたぐ共通の運用モデルが求められることです。

Nutanixは、Ciscoの一部としてCisco AI Pods上で稼働し、Intelによって駆動され、NVIDIAのリファレンスアーキテクチャ向けに最適化されています。これにより、AIファクトリを、何千ものエージェントによって安全かつ効率的に共有できるようにして、トークンあたりのコストを最も低く抑えることで、プロダクション対応のフルスタック基盤を手に入れられます。このソリューションは、ハードウェアを管理するインフラストラクチャ/プラットフォームエンジニアリングチームと、エージェント型AIアプリケーションを構築し運用するAIエンジニアリングおよびエージェント型AI開発チームの間のギャップを埋め、巨大な規模でAIを運用することを本当に手頃なものにします。

「組織がAI投資を持続し、拡張できるかどうかを左右する指標――トークンあたりのコスト、GPU利用率、スケジューリング効率――は、インフラストラクチャの指標です」とSengupta氏は言います。「それらを適切に管理することは、AIが機能するかどうかだけでなく、AIが現実的に成立するための前提条件になりつつあります。」

AIファクトリを安全に、そしてスケールさせる — ここでフルスタックのアプローチを探索する


スポンサー記事は、投稿に対して支払いをしている、またはVentureBeatとのビジネス上の関係を有する会社によって作成されたコンテンツであり、常に明確に表示されます。詳細については sales@venturebeat.com にお問い合わせください。