非線形ロボットシステムに対する線形コープマン・ダイナミクスを用いた効率的強化学習

arXiv cs.RO / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、コープマン作用素理論により非線形ロボットのための「リフトされた」線形ダイナミクスを学習し、それを閉ループ制御に用いるモデルベース強化学習フレームワークを提案しています。
学習した線形モデルに基づいて、ポリシーが閉ループ制御器をパラメータ化する形で設計され、アクタークリティックにより方策最適化を行います。
計算コストを抑え、長いロールアウトに伴うモデル誤差を抑えるために、複数ステップの伝播ではなく学習済みダイナミクスの1ステップ予測でポリシー勾配を推定します。
ストリーミングされた相互作用データからオンラインのミニバッチ・ポリシー勾配更新を行えるため、学習中に継続的な改善が可能です。
非線形制御ベンチマークと実機（Kinova Gen3アーム、Unitree Go1四足歩行ロボット）での実験により、モデルフリーRLより高いサンプル効率、モデルベースの既存手法より優れた制御性能、さらに正確なシステムダイナミクスに依存する古典的手法と同等の制御性能が示されています。

要旨: 本論文は、非線形ロボットシステムの最適な閉ループ制御のための、モデルベース強化学習（RL）フレームワークを提示する。提案手法は、Koopman作用素理論を通じて線形のリフト化ダイナミクスを学習し、その結果得られたモデルを、パラメータ化された閉ループ制御器を表す方策の最適化のためのアクタークリティック（actor-critic）アーキテクチャに統合する。計算コストを削減し、モデルのロールアウト誤差を緩和するために、方策勾配は、学習したダイナミクスの多段階伝播ではなく、1ステップ予測を用いて推定する。これにより、ストリーミングされた相互作用データから方策改善を可能にするオンラインのミニバッチ方策勾配フレームワークが実現される。提案フレームワークは、いくつかのシミュレーション上の非線形制御ベンチマークおよび、Kinova Gen3 ロボットアームと Unitree Go1 四足歩行ロボットを含む2つの実世界のハードウェアプラットフォームで評価される。実験結果は、モデルフリーRLのベースラインに対してサンプル効率が向上すること、モデルベースRLのベースラインに比べて制御性能が優れていること、そして正確なシステムダイナミクスに依存する古典的なモデルベース手法と同程度の制御性能を達成することを示している。