広告

強化学習による化学インテグレーションのための自律的な適応型ソルバ選択

arXiv cs.LG / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、化学ソルバの選択をマルコフ決定過程として扱う制約付き強化学習フレームワークを提案し、化学インテグレーション中にCVODE(陰的BDF)とQSSソルバの間を自動的に切り替える。
  • 局所状態に基づく近視眼的な意思決定を行うのではなく、RLエージェントは、現在のソルバ選択が下流での誤差蓄積にどのように影響するかを考慮した軌跡に着目した方策を学習し、ラグランジュ型の報酬とオンラインでのマルチプライヤ適応によってユーザ指定の精度許容誤差を強制する。
  • 0D同種反応器ベンチマークにおいて、RL適応方策は平均で約3×の速度向上(最大で約10.6×の幅)を達成し、106種のn-ドデカンメカニズムに対して点火遅れと生成物(スペシーズ)プロファイルを維持する。その一方で、推論オーバーヘッドは概ね1%に留まる。
  • 著者らは、ひずみ速度10〜2000 s⁻¹にわたる1D逆拡散火炎へのゼロ再学習での転移を報告しており、CVODEに対して一貫して約2.2×の速度向上を達成する。さらに、空間-時間のポイントのうち約12〜15%でのみCVODEを選択しつつ、参照に近い温度精度を維持する。

概要: 硬い化学反応速度論の計算コストは、反応流のシミュレーションにおいて依然として支配的なボトルネックである。しかし、ハイブリッド統合戦略は通常、手で調整されたヒューリスティックや、瞬間的な局所状態から近視眼的な判断を行う教師あり予測器によって駆動されている。我々は、化学積分の間に暗黙のBDFインテグレータ(CVODE)と準定常状態(QSS)ソルバを自律的に選択する制約付き強化学習(RL)フレームワークを提案する。ソルバ選択はマルコフ決定過程として定式化される。エージェントは、現在のソルバ選択が下流での誤差の蓄積にどのように影響するかを考慮した、軌跡に基づくポリシーを学習しつつ、オンラインのマルチプライヤ適応を伴うラグランジアン報酬によりユーザが指定する精度許容範囲を満たしながら計算コストを最小化する。0次元の一様リアクタ条件をサンプルした範囲では、RL適応ポリシーにより平均で約 3\times の速度向上が達成され、速度向上は 1.11\times から 10.58\times の範囲に及ぶ。さらに、106種の\textit{n}-ドデカン機構に対して点火遅れと種組成プロファイルの精度を維持しつつ、推論オーバーヘッドは約 1\% に留まる。再学習なしで、0Dで訓練したポリシーは、ひずみ速度 10--2000~\mathrm{s}^{-1} の1次元逆拡散火炎へと転移し、CVODEに対して一貫した約 2.2\times の速度向上をもたらしつつ、参照に近い温度精度を維持する。加えて、空間-時間点のうちCVODEを選択するのはわずか 12--15\% に過ぎない。総合すると、本提案の強化学習フレームワークが、精度制約を尊重しながら問題固有の統合戦略を学習し得る可能性を示しており、空間的に不均一な硬さを持つ多物理系に対して適応的で自己最適化するワークフローへの道を開く。

広告