物理情報に基づく深層生成モデルを用いたオフライン強化学習による宇宙飛行アプリケーションにおけるデータ不足の緩和

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、宇宙飛行向けの強化学習（RL）コントローラにおけるシミュレーションから実環境へのギャップ（sim-to-real）を対象とし、現実世界の学習データが極めて乏しい状況を扱う。
観測された軌道と物理モデルの予測の間に存在する不一致をモデル化することで、物理に基づく学習上のバイアスを注入する、物理情報付き変分オートエンコーダであるMI-VAEを提案する。
MI-VAEの潜在空間を用いて合成軌道データセットを生成し、オフラインRL学習のために物理的制約をより適切に反映できるようにする。
実データが限られた惑星着陸機ベンチマークにおいて、MI-VAEで生成したサンプルによりオフラインRLデータセットを拡張すると、標準的なVAEベースの拡張と比べてRLの性能と政策（方策）の成功率が向上する。
全体として、本研究は、宇宙ミッションのようなデータに制約があり物理支配の強い環境において、自律コントローラのロバスト性を改善するためのスケーラブルなアプローチを提供する。

Abstract

強化学習（RL）ベースの制御器を物理システムに適用することは、多くの場合、現実世界の状況への汎化が不十分であることによって制限されます。これはシミュレーションから現実（sim-to-real）へのギャップとして知られています。このギャップは特に宇宙飛行において困難であり、高コストで惑星探査データも限られているため、現実世界の学習データが乏しいからです。システム同定や合成データ生成といった従来のアプローチは、十分なデータに依存し、モデリング上の仮定や物理に基づく制約の欠如によってしばしば失敗します。そこで本研究では、生成モデルに物理ベースの学習バイアスを導入することで、このデータ不足に対処することを提案します。具体的には、観測されたシステムの軌道と、物理ベースのモデルが予測する軌道との差を学習する、物理に基づいたVAEである相互情報量ベース分割変分オートエンコーダ（MI-VAE）を開発します。MI-VAEの潜在空間により、物理的制約を満たす合成データセットの生成が可能になります。MI-VAEを惑星着陸機の問題に対して評価し、限られた現実世界データとオフラインRL学習に焦点を当てます。その結果、MI-VAEのサンプルでデータセットを拡張することで、下流のRL性能が大幅に向上し、統計的忠実性、サンプル多様性、および方策の成功率の点で標準的なVAEを上回ることが示されました。本研究は、データ制約のある複雑な環境において自律制御器のロバスト性を高めるための、スケーラブルな戦略を示すものです。