物理情報に基づく深層生成モデルを用いたオフライン強化学習による宇宙飛行アプリケーションにおけるデータ不足の緩和
arXiv cs.LG / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、宇宙飛行向けの強化学習(RL)コントローラにおけるシミュレーションから実環境へのギャップ(sim-to-real)を対象とし、現実世界の学習データが極めて乏しい状況を扱う。
- 観測された軌道と物理モデルの予測の間に存在する不一致をモデル化することで、物理に基づく学習上のバイアスを注入する、物理情報付き変分オートエンコーダであるMI-VAEを提案する。
- MI-VAEの潜在空間を用いて合成軌道データセットを生成し、オフラインRL学習のために物理的制約をより適切に反映できるようにする。
- 実データが限られた惑星着陸機ベンチマークにおいて、MI-VAEで生成したサンプルによりオフラインRLデータセットを拡張すると、標準的なVAEベースの拡張と比べてRLの性能と政策(方策)の成功率が向上する。
- 全体として、本研究は、宇宙ミッションのようなデータに制約があり物理支配の強い環境において、自律コントローラのロバスト性を改善するためのスケーラブルなアプローチを提供する。




