強化学習に基づくフロー制御におけるサンプル効率の向上:クリティックを適応的な低次元モデルで置き換える

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来のクリティックを用いずに制御器最適化に必要な勾配情報を推定することで、モデルフリーDRLの低いサンプル効率を解決するための、適応的低次元モデル(ROM)に基づく強化学習フレームワークを提案する。
  • ROMは、物理に基づく線形動的システムと、流体の非線形性を捉えるデータ駆動型ニューラル常微分方程式(NODE)を組み合わせる。線形パラメータはオペレータ推論により同定し、NODEは勾配ベース最適化によって学習する。
  • 制御器と環境の相互作用の間、ROMは新たに収集されたデータを用いて継続的に更新され、学習したROMの微分可能なシミュレーションを通じて制御器が最適化される。
  • ブラジウス境界層流および正方形シリンダーを通過する流れ、という2つのベンチマーク流れの制御問題に対する実験では、探索に必要なサンプル数が少なくなり、性能も向上することが示される。特に、典型的なDRL手法よりも大幅に少ないデータで抗力低減が達成される。
  • 著者らは、本手法がモデルフリーDRL制御における重要なボトルネックに対処し、サンプル効率の高いDRLベースの能動的フロー制御器のための基盤を提供すると主張している。

Abstract

モデルフリー深層強化学習(DRL)手法は、サンプル効率が低いという問題を抱えています。この制限を克服するため、本研究は能動的な流れの制御のための適応型縮約次元モデル(ROM)ベースの強化学習フレームワークを提案します。従来のアクター・クリティック型アーキテクチャとは対照的に、提案手法は、コントローラ最適化に必要な勾配情報を推定するためにROMを活用します。ROM構造の設計には、物理的洞察が組み込まれています。ROMは、線形動力学系と、流れの非線形性を推定するためのニューラル常微分方程式(NODE)を統合します。線形成分のパラメータはオペレータ推論により同定し、NODEは勾配ベースの最適化を用いたデータ駆動型で学習します。コントローラと環境との相互作用の間、ROMは新たに収集されたデータによって継続的に更新され、モデルの適応的な精緻化を可能にします。その後、ROMの微分可能なシミュレーションを通じてコントローラを最適化します。提案するROMベースのDRLフレームワークは、2つの代表的な流れの制御問題で検証されます。すなわち、Blasiusの境界層流と、角柱まわりの流れです。Blasiusの境界層においては、提案手法は実効的に単一エピソードのシステム同定およびコントローラ最適化プロセスへと帰着しますが、それでもなお、従来の線形設計を上回るコントローラを得るとともに、最小限のデータでDRL手法に匹敵する性能を達成します。角柱まわりの流れでは、提案手法は、DRL手法と比べて探索データを大幅に少なくしながら、より優れた抗力低減を実現します。本研究は、モデルフリーDRL制御アルゴリズムの重要な構成要素に取り組み、よりサンプル効率の高いDRLベースの能動的流れ制御器の設計に向けた基盤を築きます。