社会的ナビゲーションのための現実世界学習に向けた漸進的残差強化学習

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は移動ロボットのための社会的ナビゲーションを扱っており、地域ごとの大きな変動により、歩行者のダイナミクスや人々の行動規範を十分にカバーするにはシミュレーション中心の学習だけでは不十分であることを指摘している。
  • 軽量な漸進的学習(リプレイバッファやバッチ更新なし)と、ベース方策に対する残差方策のみを学習する残差強化学習を組み合わせた、漸進的残差強化学習(IRRL)を提案する。
  • シミュレーション結果により、IRRLが標準的なリプレイバッファ方式の強化学習手法と同等の性能を達成しつつ、従来の漸進的学習アプローチを上回ることが示される。
  • 実機での実験では、IRRLを用いたロボットがオンロボット学習によって、これまでに見たことのない環境に対して効果的に適応できることが示され、本手法がエッジデバイスの制約下でも実用的であることを裏付けている。

Abstract

モバイルロボットへの需要が増え続ける中で、ソーシャルナビゲーションは重要な課題として浮上し、深層強化学習(RL)アプローチへの積極的な研究が進められています。しかし、歩行者のダイナミクスや社会的な慣習は地域によって大きく異なるため、シミュレーションだけでは現実世界のあらゆる可能な状況を容易に包含できません。エージェントが物理環境上で直接動作しながら学習する実世界RLは、この問題に対する有望な解決策を提供します。それにもかかわらず、このアプローチには、特にエッジデバイス上の計算資源の制約や学習効率に関して、大きな課題があります。本研究では、漸増残差RL(IRRL)を提案します。この手法は、リプレイバッファやバッチ更新を用いない軽量なプロセスである漸増学習と、基礎となる方策に対する残差のみを学習することで学習効率を高める残差RLを統合します。シミュレーション実験において、リプレイバッファを持たないにもかかわらず、IRRLが従来のリプレイバッファベース手法と同等の性能を達成し、さらに既存の漸増学習アプローチを上回ることを示しました。加えて、実世界実験により、IRRLが実世界での学習を通じて、これまで見たことのない環境へロボットが効果的に適応できることが確認されました。