有界な極値探索による分布シフト下でのロボット操作のための深層強化学習

arXiv cs.RO / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボティクスにおける強化学習の一般的な制約として、特に押し動作やピッキング&プレースのような接触を多く含む操作タスクにおいて、デプロイ時の条件が学習時の分布と異なると性能が低下する問題を扱う。
学習時に深層決定論的方策勾配（DDPG）で獲得した方策と、デプロイ中に有界な極値探索（ES）成分を組み合わせるハイブリッド制御アプローチを提案する。
RL方策は高速な操作行動を生成するために用いられ、有界なESは、システムが分布外に外れた際の時間変動やその他のシフトに対する頑健性を維持することを目的として設計される。
実験では、時間的に変動する目標や、空間的に変化する摩擦パッチなど、複数の分布外シナリオの下でコントローラを評価する。
全体として、各デプロイの変化ごとに再学習することなく、分布シフト下で学習したロボット操作方策の頑健性を向上させる手法を提示する。