Datadog、AIコスト高騰を受けてGPU効率を掘り下げる

The Register / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early Trends

要点

  • Datadogは、AIワークロードによる計算コストの急増を背景に、GPUがどれだけ効率よく使われているかを調査している。
  • 注目点は、ベンダーのベンチマークだけに頼るのではなく、実運用環境でのGPUパフォーマンスや利用状況を計測・理解することにある。
  • GPU効率を分解することで、チームが無駄になっている時間・計算・容量を特定できるようにする狙いだ。
  • この記事では、AI支出の抑制と全体的な価値向上のためにGPU効率の取り組みが今まで以上に重要になっていると位置づけている。

Datadog、AIコストが急騰する中でGPU効率の深掘りへ

価値の見極めはあなたの仕事だ

Thu 23 Apr 2026 // 15:33 UTC

Datadogは、監視と可観測性(オブザーバビリティ)のスタックにGPUの監視を追加しました。これにより、AIを渇望する組織に対して、最も高価なシリコン上で実際に何が起きているのかを正確に把握するための洞察を提供します。

AMD Ryzen 9950X3D2-DE

AMDのRyzen 9 9950X3D2 Dual Editionをテスト:値段相応の、余計なほどの贅沢

続きを読む

可観測性ベンダーであるsaysによれば、GPUインスタンスは現在、クラウドの計算コストの14%を占めています。企業がAIバンドワゴンに殺到する中で、GPUの支出は将来的にクラウド計算コスト支出のさらに大きな割合を占めるようになるとのことです。

今月初め、IDCはこう述べました。「人工知能(AI)インフラへの世界全体の支出は、2025年Q4に899億ドルに達した」前年から62%増。さらに加速する計算処理――主にGPU――が、その「構造的な土台(structural backbone)」だとしています。

しかし、大規模なAI投資から(あるとすれば)どれほどの価値を企業が得ているのかについては、議論が尽きません。

Datadogは、その泥沼に足を踏み入れようとはしていません。ですが、プロダクト担当最高責任者(Chief Product Officer)のYanbing Liは「これらの企業はコストが上がっているのを見ることはできますが、事業部門全体でGPUの支出を精算(チャージバック)したり、ワークロードの状況(コンテキスト)を把握したり、改善のための明確な次の手を特定したりすることはできません」と言います。

それに対処するため、Datadogは、最新ツールがAIスタック全体にわたる統一された可視性を提供すると主張しています。「顧客は、GPUのフリートの健全性、コスト、パフォーマンスを1つのビューでつなげて直接確認できるため、遅いワークロードのより迅速なトラブルシューティングとコスト削減につながる」としています。

返却形式: {"translated": "翻訳されたHTML"}

より長い解説では、このツールはクラウドとネオクラウドの両方のインスタンス、そしてオンプレミスのGPUフリート上でも動作することが説明されています。クラウド上でのAIに対して主権上の懸念があって警戒している場合に、便利です。

「どれだけのフリートがまったくアイドル状態にあるのか、あるいはGPUをまったく必要としないワークロードによって非効率に消費されているのかが、どれだけ見て取れるかが分かりやすいです」と述べています。「Fleet Explorer に掘り下げることで、GPU利用率と支出について各チームを責任あるものにできます。」

GPUの時間を吸い続けている“停止中”または“ゾンビ”プロセスを特定するだけでなく、そもそもGPU向けに設定されていなかったワークロードも見つけます。結果として、実質的にお金を燃やしてしまっている状態を防げます。

「Datadog 社内では、GPUモニタリングによって、初期化フェーズで止まっていたサービングポッドを特定し削除することで、毎月の経費を数万ドル分(数万単位)節約できました」と解説者は述べました。

「コストの上昇は、ハードウェアだけでなく、運用上の非効率によって引き起こされることが多いです。コストを利用率とワークロードの挙動に結びつけることで、チームはパフォーマンスを維持しながら無駄を削減できます。」

Datadog がAIスタックのさらに下まで可観測性を広げているのは、確かに同社だけではありません。今週もまた、Grafana がAI向けの可観測性ツールを立ち上げたのが見られました。エージェントの挙動に関する洞察を提供するほか、Grafana Cloud プラットフォームでは、ハードウェアの利用状況やリソース配分をカバーするGPU可観測性ツールに加えて、コスト最適化も提供しています。

今月初めには、Nutanix が、組織が以前のGPUでより多くのワークロードを実行できるようにするマルチテナンシーのフレームワークを公開し、AIシステムがトークンを食い進めていく様子についての洞察も提供することが明らかにされました。

つまり、個々のAIワークロードがあなたにいくらかかっているのか、また、請求額を必要以上に押し上げている可能性のあるプロセスやソフトウェアの設定ミスが何なのかを、より突き止めやすくなっているということです。

これは、企業がAIインフラと、それに関連するアプリやエージェントを、可能な限り効率的に稼働させられることを意味します。企業が実際に、AI投資から価値を得られているかどうかを把握し始められるのか――それはまた別の問いになるかもしれません。 ®

この記事についてさらに

これに近い記事

さらに詳しく

さらに詳しく

これらに近い話題

情報提供を送る

ニュースをお送りください