時変ダイナミクス下での制御のためのモデルベース強化学習

arXiv cs.LG / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、システムのダイナミクスが非定常であり、エピソードをまたいで変化する場合に対する強化学習による制御を扱う。これは、ドリフト、摩耗、運転条件の変化などにより現実世界で頻出する課題である。
問題を継続的かつモデルベースな強化学習として定式化し、頻度主義的な変動バジェット仮定のもとで、ガウス過程ダイナミクスモデルを用いて分析する。
著者らは、非定常性が持続する場合には、不確実性の較正を保ち、動的レグレットの保証を損なわないために、古いデータを明示的にダウンウェイトするか、あるいは制限する必要があることを示す。
これらの理論的洞察に基づき、過去データの影響を管理するための適応的なデータバッファを用いる楽観的なモデルベース強化学習アルゴリズムを提案する。
非定常ダイナミクスを伴う連続制御ベンチマークでの実験により、提案手法が性能を改善することが示されている。

要旨: 学習ベースの制御手法は典型的に定常なシステムダイナミクスを仮定しますが、その仮定は、ドリフト、摩耗、または運用条件の変化によって現実のシステムではしばしば破られます。本研究では、時間変化するダイナミクスの下での制御に対する強化学習を扱います。エージェントが、エピソードをまたいで遷移ダイナミクスが変化するダイナミカルシステムを繰り返し学習し、制御する、継続的なモデルベース強化学習の設定を考察します。私たちは、頻度論的な変動バジェット仮定のもとで、ガウス過程ダイナミクスモデルを用いてこの問題を解析します。解析の結果、持続的な非定常性には、較正された不確実性と意味のある動的レグレット保証を維持するために、古くなったデータの影響を明示的に制限することが必要であることが示されます。これらの知見に動機づけられ、適応的なデータバッファ機構を備えた、実用的な楽観的モデルベース強化学習アルゴリズムを提案し、非定常ダイナミクスを伴う連続制御のベンチマークにおいて性能が向上することを実証します。