要旨: オフライン強化学習(RL)は、環境との追加の相互作用を行わずに、固定されたオフラインデータセットから最適な方策を学習することを目的とします。このような手法は、オフライン方策(または価値関数)を学習し、その後は推論時に追加の改良を行わずに適用します。我々は、モデル予測制御(MPC)に触発された推論時適応の枠組みを導入します。この枠組みは、事前学習済みの方策に加えて、状態遷移と報酬の学習済みのワールドモデルを利用します。既存のワールドモデルや拡散ベースの計画手法は、学習中に想像上の軌道を生成するために学習済みダイナミクスを用いたり、推論時に候補となる計画をサンプリングするために用いたりしますが、推論時の情報を用いて方策パラメータをその場で最適化することは行いません。これに対して、本設計は、MPCに基づく推論時の方策最適化のために、想像上のロールアウトを通じて推論時にエンドツーエンドで勾配計算を可能にする、微分可能ワールドモデル(DWM)パイプラインです。我々は、D4RLの連続制御ベンチマーク(MuJoCoの移動タスクおよびAntMaze)で提案手法を評価し、推論時の情報を活用して方策パラメータを最適化することが、強力なオフラインRLのベースラインに対して一貫した改善をもたらすことを示します。
オフライン強化学習のための微分可能な世界モデルを用いたモデル予測制御
arXiv cs.LG / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、環境との新たな相互作用を行わずに方策改善を可能にする、モデル予測制御(MPC)に着想を得た推論時適応手法を提案し、オフライン強化学習に取り組む。
- 微分可能世界モデル(DWM)パイプラインを導入し、想像上のロールアウトを通じてエンドツーエンドで勾配計算を可能にすることで、推論中にその場で方策パラメータを最適化できるようにする。
- 従来手法が、学習時の想像や推論時の候補サンプリングにおいて学習済みダイナミクスを主に用いるのに対し、本手法は勾配ベースの方策更新を導くために、推論時の情報を明示的に活用する。
- D4RL の連続制御ベンチマーク(MuJoCo のロコモーションおよび AntMaze)での実験により、強力なオフライン強化学習ベースラインに対して一貫した性能向上が示される。
- 全体として、本研究は、静的なオフライン方策の実行から、微分可能に学習されたダイナミクスと報酬を用いて推論時にモデルベースで改良するという、勾配に基づく方向への転換を示唆している。
