ニュートンの冷却則に整合する物理モデルを用いた、AIデータセンターの短期GPU電力予測フレームワーク

arXiv cs.AI / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、負荷が大きく変動するAIデータセンターに対して、5〜80分の短期GPU電力を予測する物理情報を組み込んだ時系列モデルPI-DLinearを提案しています。
マルチノードの等価集中熱抵抗・容量（RC）ネットワークをニュートンの冷却則と整合する形で用い、電力消費をGPUの計算・メモリ利用率と温度の関係として捉えます。さらに、これらを結びつける新たな時間依存ODEを導出しています。
実データセンターの実データで学習・評価した結果、PI-DLinearはトランスフォーマー型/非トランスフォーマー型を含む既存の最先端モデルよりも予測精度が高いと示されています。
予測は単に統計的に当たるだけでなく、電力スロットリングや負荷の過渡事象の際にも物理的に整合するよう設計されています。
既存SOTAに対する改善幅は、MSEで0.782%〜39.08%、MAEで0.993%〜51.82%、RMSEで0.370%〜22.28%と報告されています（さまざまな参照期間・予測窓で平均）。

概要: AIデータセンターは、支える必要のある計算タスクが不均一であることにより、電力需要が急速に変動します。例えば、大規模言語モデル（LLM）の推論と学習における電力プロファイルはかなり異なっており、大きな乖離は基盤となる電力系統の不安定性につながり得ます。本論文では、我々の知る限り、AIデータセンターの電力利用を将来の5〜80分先（短期予測）まで正確に予測できる、物理情報に基づく初のDLinear時系列モデルを提案します。ニュートンの冷却の法則と整合する、多ノードの集中定数熱抵抗−熱容量（RC）ネットワークに基づく物理は、新たに導出した時間依存の常微分方程式（ODE）によって捉えられます。このODEは、電力消費をGPUの計算能力とメモリ利用、そして温度とそれぞれ別々にモデル化し、それらを相互に結び付けます。得られたモデルはPI-DLinearと呼び、実在のAIデータセンターデータセットで学習・評価されており、検証した最先端（SOTA）モデルよりも高い精度であるだけでなく、電力スロットリングおよび負荷の過渡イベントにおいて予測プロファイルが基盤となる物理を尊重しています。SOTAのトランスフォーマーベースおよび非トランスフォーマーベースモデルと比較すると、予測精度の改善（全ての参照履歴長と予測ウィンドウにわたって平均した値）は、MSEで0.782%〜39.08%、MAEで0.993%〜51.82%、RMSEで0.370%〜22.28%の範囲にあります。