AI加速CFDシミュレーションのIPUプラットフォームへの適応

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文では、Intelligence Processing Units（IPU）を「AI for simulation」の文脈で評価し、とくに計算流体力学（CFD）向けの機械学習モデルを対象に加速可能性を検討しています。
Poplar SDKのTensorFlowを用いてIPU-POD16向けに学習パイプラインを適応し、OpenFOAMのシミュレーションデータでモデルを学習することで、テスト時にCFDのシミュレーション状態を高精度に予測できることを示しています。
popdistライブラリを活用して、IPUへの学習データ供給に関するホスト側のボトルネックを解消し、最大34%の速度向上を達成しています。
通信オーバーヘッドのため、1台から2台へのデータ並列化ではスループットは改善しませんが、2台から16台へIPU数を増やすとスループットは560.8から2805.8 samples/sへ大きく伸びます。

概要: インテリジェンス・プロセッシング・ユニット（IPU）は、多くのAIアプリケーションにおいて有用であることが実証されています。本論文では、従来の数値シミュレーションを人工知能のアプローチによって支援する、新興分野である\emph{シミュレーションのためのAI}の文脈で、それらを評価します。特に、\emph{計算流体力学}アプリケーションを支える機械学習モデルを訓練するためのプログラムに焦点を当てます。Poplar SDK が提供する独自の TensorFlow を用いて、IPU-POD16 プラットフォーム向けにプログラムを適応し、使いやすさと性能スケーラビリティを調査します。OpenFOAM シミュレーションのデータを用いてモデルを訓練することで、テスト時に正確なシミュレーション状態の予測を得ることができます。\emph{popdist} ライブラリを利用して、ホスト側で学習データを IPU に投入する際の性能ボトルネックを克服する方法を示し、最大 34
m 程度の速度向上を達成します。通信オーバーヘッドのため、1 基の IPU の代わりに 2 基の IPU を用いるデータ並列化では、スループットは向上しません。しかし、一度 IPU 内のコストが支払われると、IPU 間通信のためのハードウェア機能により良好なスケーラビリティが可能になります。IPU の数を 2 から 16 に増やすことで、スループットは 560.8 から 2805.8 サンプル/s へと改善します。