Datadogは、監視と可観測性(オブザーバビリティ)のスタックにGPUの監視を追加しました。これにより、AIを渇望する組織に対して、最も高価なシリコン上で実際に何が起きているのかを正確に把握するための洞察を提供します。
可観測性ベンダーであるsaysによれば、GPUインスタンスは現在、クラウドの計算コストの14%を占めています。企業がAIバンドワゴンに殺到する中で、GPUの支出は将来的にクラウド計算コスト支出のさらに大きな割合を占めるようになるとのことです。
今月初め、IDCはこう述べました。「人工知能(AI)インフラへの世界全体の支出は、2025年Q4に899億ドルに達した」前年から62%増。さらに加速する計算処理――主にGPU――が、その「構造的な土台(structural backbone)」だとしています。
しかし、大規模なAI投資から(あるとすれば)どれほどの価値を企業が得ているのかについては、議論が尽きません。
Datadogは、その泥沼に足を踏み入れようとはしていません。ですが、プロダクト担当最高責任者(Chief Product Officer)のYanbing Liは「これらの企業はコストが上がっているのを見ることはできますが、事業部門全体でGPUの支出を精算(チャージバック)したり、ワークロードの状況(コンテキスト)を把握したり、改善のための明確な次の手を特定したりすることはできません」と言います。
それに対処するため、Datadogは、最新ツールがAIスタック全体にわたる統一された可視性を提供すると主張しています。「顧客は、GPUのフリートの健全性、コスト、パフォーマンスを1つのビューでつなげて直接確認できるため、遅いワークロードのより迅速なトラブルシューティングとコスト削減につながる」としています。
より長い解説では、このツールはクラウドとネオクラウドの両方のインスタンス、そしてオンプレミスのGPUフリート上でも動作することが説明されています。クラウド上でのAIに対して主権上の懸念があって警戒している場合に、便利です。
「どれだけのフリートがまったくアイドル状態にあるのか、あるいはGPUをまったく必要としないワークロードによって非効率に消費されているのかが、どれだけ見て取れるかが分かりやすいです」と述べています。「Fleet Explorer に掘り下げることで、GPU利用率と支出について各チームを責任あるものにできます。」
GPUの時間を吸い続けている“停止中”または“ゾンビ”プロセスを特定するだけでなく、そもそもGPU向けに設定されていなかったワークロードも見つけます。結果として、実質的にお金を燃やしてしまっている状態を防げます。
「Datadog 社内では、GPUモニタリングによって、初期化フェーズで止まっていたサービングポッドを特定し削除することで、毎月の経費を数万ドル分(数万単位)節約できました」と解説者は述べました。
「コストの上昇は、ハードウェアだけでなく、運用上の非効率によって引き起こされることが多いです。コストを利用率とワークロードの挙動に結びつけることで、チームはパフォーマンスを維持しながら無駄を削減できます。」
Datadog がAIスタックのさらに下まで可観測性を広げているのは、確かに同社だけではありません。今週もまた、Grafana がAI向けの可観測性ツールを立ち上げたのが見られました。エージェントの挙動に関する洞察を提供するほか、Grafana Cloud プラットフォームでは、ハードウェアの利用状況やリソース配分をカバーするGPU可観測性ツールに加えて、コスト最適化も提供しています。
- AIが電力やサーバ向けの管理チップを今すぐ食い尽くす
- 1つのチップで全部を支配することは忘れてください。TPU 8 では、Google が勝つためのAI“腕力競争”を仕掛けています
- Intel が TSMC 依存を和らげる――「Merica製 Core Series 3」プロセッサ
- すべてのネットワークがAIトラフィックに対応できるわけではない――専門家が警報を鳴らしている
今月初めには、Nutanix が、組織が以前のGPUでより多くのワークロードを実行できるようにするマルチテナンシーのフレームワークを公開し、AIシステムがトークンを食い進めていく様子についての洞察も提供することが明らかにされました。
つまり、個々のAIワークロードがあなたにいくらかかっているのか、また、請求額を必要以上に押し上げている可能性のあるプロセスやソフトウェアの設定ミスが何なのかを、より突き止めやすくなっているということです。
これは、企業がAIインフラと、それに関連するアプリやエージェントを、可能な限り効率的に稼働させられることを意味します。企業が実際に、AI投資から価値を得られているかどうかを把握し始められるのか――それはまた別の問いになるかもしれません。 ®




