強化学習に基づくフロー制御におけるサンプル効率の向上:クリティックを適応的な低次元モデルで置き換える
arXiv cs.LG / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、従来のクリティックを用いずに制御器最適化に必要な勾配情報を推定することで、モデルフリーDRLの低いサンプル効率を解決するための、適応的低次元モデル(ROM)に基づく強化学習フレームワークを提案する。
- ROMは、物理に基づく線形動的システムと、流体の非線形性を捉えるデータ駆動型ニューラル常微分方程式(NODE)を組み合わせる。線形パラメータはオペレータ推論により同定し、NODEは勾配ベース最適化によって学習する。
- 制御器と環境の相互作用の間、ROMは新たに収集されたデータを用いて継続的に更新され、学習したROMの微分可能なシミュレーションを通じて制御器が最適化される。
- ブラジウス境界層流および正方形シリンダーを通過する流れ、という2つのベンチマーク流れの制御問題に対する実験では、探索に必要なサンプル数が少なくなり、性能も向上することが示される。特に、典型的なDRL手法よりも大幅に少ないデータで抗力低減が達成される。
- 著者らは、本手法がモデルフリーDRL制御における重要なボトルネックに対処し、サンプル効率の高いDRLベースの能動的フロー制御器のための基盤を提供すると主張している。




