広告

多様なリセットと大規模強化学習による創発的巧緻性

arXiv cs.RO / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のsim-to-real(シミュレーションから実世界への)巧緻なマニピュレーションに関する強化学習手法が脆弱であり、タスク固有であるうえ、状態空間の限られたカバー範囲によって性能が飽和してしまうため計算資源に対してスケールしないと主張する。
  • オムニリセット(OmniReset)という枠組みを提案し、多様なシミュレータのリセットを用いて、カリキュラム、タスクごとの報酬設計の作り直し、あるいは人間によるデモンストレーションに依存することなく、オンポリシー強化学習エージェントに幅広いロボットと対象物の相互作用を提示する。
  • OmniResetは、タスク間で単一の報酬関数と固定のアルゴリズムハイパラメータを維持し、従来手法に共通していた重いタスクごとのエンジニアリング負担を取り除くことを目指す。
  • 実験により、長い時間軸を持ち接触を多く含むマニピュレーション課題へのスケーリングが改善され、ベースライン手法よりも幅広い初期条件に対して頑健な方策が得られることが示される。
  • 著者らは、OmniResetで学習した方策を視運動(visuomotor)の挙動へ蒸留し、実世界でのゼロショット転移の成功率が高くなることや、頑健な「やり直し(retrying)」行動を示す。

Abstract

大規模に並列化された物理シミュレーションにおける強化学習は、ロボットのシミュレーションから現実への学習において大きな進歩をもたらしてきました。しかし、現行のアプローチは依然として脆く、タスク固有です。報酬設計、カリキュラム、デモンストレーションのために、タスクごとの広範なエンジニアリングに依存しています。こうしたエンジニアリングを行っても、接触を多く含む長い時間幅の操作タスクでは失敗することが多く、計算資源に対して意味のあるスケールを実現できません。同じ狭い範囲の状態空間に対して訓練を再訪すると、性能がすぐに頭打ちになってしまうからです。私たちは、単一の報酬関数、固定されたアルゴリズムのハイパーパラメータ、カリキュラムなし、人間のデモンストレーションなしで、強化学習を用いたオンポリシー学習が、広範な器用な操作タスクを堅牢に解くことを可能にする、シンプルでスケーラブルな枠組み OmniReset を提案します。私たちの重要な洞察は、シミュレータのリセットを用いて、器用な操作の基盤となる多様なロボットと対象物の相互作用にRLアルゴリズムを系統的に曝すことで、長い時間幅の探索を劇的に単純化できるという点です。OmniReset は、人間の入力を最小限に抑えつつ、そのようなリセットをプログラム的に生成し、追加の計算を、より広い行動範囲のカバーと継続的な性能向上へ直接つなげます。OmniReset は、既存手法の能力を超える長い時間幅の器用な操作タスクへもうまくスケールし、ベースラインよりもかなり広い初期条件の範囲で堅牢な方策を学習できることを示します。最後に、OmniReset を視覚運動(visuomotor)方策へ蒸留し、現実世界へゼロショット転移した際に、ベースラインよりも実質的に高い成功率と、堅牢なリトライ行動を示すことを確認します。プロジェクトページ: https://omnireset.github.io

広告