コンポジットロボット組立スキル適応のための学習ベース戦略

arXiv cs.RO / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 幾何学的公差、摩擦のばらつき、そして不確実な接触ダイナミクスにより、ペグインホール組立のような接触が多い産業用ロボット作業における課題に取り組む。特に、位置制御アームにおいて顕著である。
  • 組立を、明示的な事前条件・事後条件・不変条件を持つコンポジットスキルとしてモデル化することで、モジュール性と一貫した実行セマンティクスを支える、再利用可能でカプセル化されたスキルベース戦略を提案する。
  • 適応は残差強化学習(Residual Reinforcement Learning: RRL)によって行い、学習を各スキル内の残差的な微修正に限定することで、スキル全体の構造や制御フローを不変に保つ。
  • 本手法は、MuJoCo上でUR5eロボットとRobotiqグリッパを用い、JAXによるSACにより評価され、さまざまな変動に対して頑健にスキルを実行できることを示す。
  • 著者らは、本手法が接触相互作用中における政策の変更箇所や変更の仕方を制限することで、安全性とサンプル効率を向上させると主張しており、産業オートメーションに有望だとしている。

要旨: 接触の豊富なロボット技能は、特に位置制御型マニピュレータを用いる場合に、幾何学的な許容差が厳しいこと、摩擦のばらつき、そして不確実な接触ダイナミクスのために、産業用ロボットにとって依然として困難です。本論文は、ペグインホール(差し込み)組立のための、再利用可能でカプセル化された技能ベースの戦略を提示します。この適応は、残差強化学習(Residual Reinforcement Learning: RRL)によって達成されます。組立プロセスは、明示的な事前・事後・不変条件を伴う複合技能として表現されており、タスクの変動にまたがるモジュール性、再利用性、そして明確に定義された実行セマンティクスを可能にします。提案手法では、各技能内での適応を、接触が豊富な相互作用の中で残差による微調整に制限することで、RRLによって安全性とサンプル効率が促進されます。一方で、技能構造全体と実行の流れは不変のまま維持されます。提案アプローチは、Robotiqグリッパを搭載したUR5eロボットで、SACおよびJAXを用いて訓練したMuJoCoシミュレーションにおいて評価されます。その結果、提案した定式化により、組立技能の頑健な実行が可能になることが示され、産業オートメーションへの適合性が強調されます。