生成ロボットポリシーにおけるシム・アンド・リアル共同訓練の機構的分析
arXiv cs.RO / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、生成ロボットポリシーにおいてシミュレーション(sim)と実機(real)の共同訓練が有効に機能する理由を調査し、その経験的成功にもかかわらず基礎となるメカニズムの理解が不足しているというギャップに取り組む。
- 性能を支配する2つの固有の効果を特定する:主たる要因は構造化された表現のアライメントであり、補助的な修飾要因として重要度の再重み付け効果がある。
- 構造化された表現のアライメント効果は、ドメイン間で表現を整合させることと、頑健なポリシー学習のために十分なドメイン識別性を維持することの間のトレードオフを捉える。
- 重要度の再重み付け効果は、訓練中のアクション重み付けがドメインに依存して調整されることに起因するとされる。
- 著者らは、制御されたトイモデル実験に加えて、広範なsim-and-simおよびsim-and-realのロボット操作実験によってこれらの主張を検証し、従来手法より改善する単純な方法を提案する。




