効率的かつ転移可能な制御学習のためのダイナミクス蒸留

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「Sim2Sim2Sim」という枠組みを提案し、高忠実度の車両シミュレーションのダイナミクスを、並列化しやすい学習済みダイナミクスモデルに蒸留して、スケーラブルな強化学習を可能にします。
  • 制御ポリシーは蒸留後の(学習済み)ダイナミクス環境でのみ学習し、その後元の高忠実度シミュレーションへ展開することで、最適化の効率と転移の信頼性の両方を高めます。
  • 学習済みダイナミクスモデルは予測精度だけで評価すべきでなく、そのモデルが可能にする強化学習ポリシーの質で評価すべきだと示しています。
  • 自動運転向けの頑健な制御ポリシー学習に焦点を当て、シミュレーション由来の物理的な現実性と、学習モデルによる計算のスケーラビリティを組み合わせることを目指しています。