モデルベース強化学習における適応と計画のためのニューラルODEおよびSDEモデル

arXiv cs.LG / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ニューラル常微分方程式モデルおよびニューラル確率微分方程式モデル（ニューラルODEおよびニューラルSDE）を用いて、完全観測および部分観測の両方の設定におけるモデルベース強化学習の確率的な遷移ダイナミクスを表現する。
実験の結果、ニューラルSDEは遷移ダイナミクスに含まれる確率性をより適切に捉え、特に難しいシナリオにおいてサンプル効率を改善しながら高性能なポリシーを生成することが示される。
著者らは、ニューラルODE/SDEの逆モデリングを用いて、新しい環境での追加の相互作用を限られたものにしたうえで、環境ダイナミクスの変化に対してポリシーを適応させる。
部分観測の場合、ODEと、潜在空間においてGANで学習した確率的な成分を組み合わせた潜在SDEモデルを提案し、確率的連続制御のベンチマークにおいて強力なベースラインを実現する。
本研究は、行動条件付きの潜在SDEが、確率的遷移下でのRL計画に対して有効なアプローチであることを示し、関連コードをGitHubで公開している。

日経XTECH

日経XTECH

Qiita

Zenn

GIGAZINE