効率的かつ転移可能な制御学習のためのダイナミクス蒸留

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「Sim2Sim2Sim」という枠組みを提案し、高忠実度の車両シミュレーションのダイナミクスを、並列化しやすい学習済みダイナミクスモデルに蒸留して、スケーラブルな強化学習を可能にします。
制御ポリシーは蒸留後の（学習済み）ダイナミクス環境でのみ学習し、その後元の高忠実度シミュレーションへ展開することで、最適化の効率と転移の信頼性の両方を高めます。
学習済みダイナミクスモデルは予測精度だけで評価すべきでなく、そのモデルが可能にする強化学習ポリシーの質で評価すべきだと示しています。
自動運転向けの頑健な制御ポリシー学習に焦点を当て、シミュレーション由来の物理的な現実性と、学習モデルによる計算のスケーラビリティを組み合わせることを目指しています。