要旨: デモンストレーションからのロボット強化学習(RLfD)は、専門家データが豊富であることを前提としています。しかしこれは、現実の世界ではデータが乏しいことに加えて収集コストが高いことから、通常は非現実的です。さらに、模倣学習アルゴリズムはデータが独立かつ同一に分布していることを仮定しており、その結果、段階的な誤りが生じてテスト時の軌道の中で複合的に蓄積されるため、最終的には性能が低下します。これらの問題に対処するために、「master your own expertise(MYOE)」フレームワーク、すなわち自己模倣のフレームワークを導入します。このフレームワークは、限られたデモンストレーションデータサンプルからロボットのエージェントが複雑な行動を学習できるようにします。人間の知覚と行動に着想を得て、私たちは「問いかけ可能な嗜好の混合(queryable mixture-of-preferences)状態空間モデル(QMoP-SSM)」と呼ぶものを提案し設計しました。これは、各タイムステップで望ましい目標を推定します。これらの望ましい目標は、「嗜好レグレット(preference regret)」の計算に用いられ、その嗜好レグレットはロボットの制御ポリシーを最適化するために使用されます。実験の結果、私たちのエージェントは、他の最先端のRLfD手法と比べて、堅牢性・適応性・外部データに対する性能が優れていることを示しました。本研究を支えるGitHubリポジトリは以下で確認できます: https://github.com/rxng8/neurorobot-preference-regret-learning.
限られたデモデータ下での好み(Preference)に基づく後悔(Regret)によりニューロロボットの方策を最適化する
arXiv cs.RO / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、専門家データが希少でデモンストレーションの収集が高コストとなる現実的な条件下での、強化学習によるデモンストレーション(RLfD)を扱う。
- 採取できるデモが限られていても、ロボットが複雑なスキルを学習できるようにするための、自分自身による自己模倣フレームワークMYOE(“master your own expertise”)を提案する。
- 本手法は、エージェントの各タイムステップにおける望ましい目標(desired goals)を推定するQMoP-SSM(queryable mixture-of-preferences state space model)を導入する。
- これらの望ましい目標から「好みの後悔(preference regret)」を計算し、それを用いてロボットの制御方策を最適化する。これにより、データセットシフトや模倣誤差の増幅(compounding imitation errors)といった問題に対処する。
- ニューロロボティクスに関する実験により、このアプローチが頑健で適応的であり、他の最先端のRLfD手法に比べてアウト・オブ・サンプルでも良好に機能することが示される。また、関連するGitHubリポジトリでコードが提供される。




