効率的かつ転移可能な制御学習のためのダイナミクス蒸留
arXiv cs.RO / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は「Sim2Sim2Sim」という枠組みを提案し、高忠実度の車両シミュレーションのダイナミクスを、並列化しやすい学習済みダイナミクスモデルに蒸留して、スケーラブルな強化学習を可能にします。
- 制御ポリシーは蒸留後の(学習済み)ダイナミクス環境でのみ学習し、その後元の高忠実度シミュレーションへ展開することで、最適化の効率と転移の信頼性の両方を高めます。
- 学習済みダイナミクスモデルは予測精度だけで評価すべきでなく、そのモデルが可能にする強化学習ポリシーの質で評価すべきだと示しています。
- 自動運転向けの頑健な制御ポリシー学習に焦点を当て、シミュレーション由来の物理的な現実性と、学習モデルによる計算のスケーラビリティを組み合わせることを目指しています。




