多様なリセットと大規模強化学習による創発的巧緻性
arXiv cs.RO / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のsim-to-real(シミュレーションから実世界への)巧緻なマニピュレーションに関する強化学習手法が脆弱であり、タスク固有であるうえ、状態空間の限られたカバー範囲によって性能が飽和してしまうため計算資源に対してスケールしないと主張する。
- オムニリセット(OmniReset)という枠組みを提案し、多様なシミュレータのリセットを用いて、カリキュラム、タスクごとの報酬設計の作り直し、あるいは人間によるデモンストレーションに依存することなく、オンポリシー強化学習エージェントに幅広いロボットと対象物の相互作用を提示する。
- OmniResetは、タスク間で単一の報酬関数と固定のアルゴリズムハイパラメータを維持し、従来手法に共通していた重いタスクごとのエンジニアリング負担を取り除くことを目指す。
- 実験により、長い時間軸を持ち接触を多く含むマニピュレーション課題へのスケーリングが改善され、ベースライン手法よりも幅広い初期条件に対して頑健な方策が得られることが示される。
- 著者らは、OmniResetで学習した方策を視運動(visuomotor)の挙動へ蒸留し、実世界でのゼロショット転移の成功率が高くなることや、頑健な「やり直し(retrying)」行動を示す。




