限られたデモデータ下での好み（Preference）に基づく後悔（Regret）によりニューロロボットの方策を最適化する

arXiv cs.RO / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、専門家データが希少でデモンストレーションの収集が高コストとなる現実的な条件下での、強化学習によるデモンストレーション（RLfD）を扱う。
採取できるデモが限られていても、ロボットが複雑なスキルを学習できるようにするための、自分自身による自己模倣フレームワークMYOE（“master your own expertise”）を提案する。
本手法は、エージェントの各タイムステップにおける望ましい目標（desired goals）を推定するQMoP-SSM（queryable mixture-of-preferences state space model）を導入する。
これらの望ましい目標から「好みの後悔（preference regret）」を計算し、それを用いてロボットの制御方策を最適化する。これにより、データセットシフトや模倣誤差の増幅（compounding imitation errors）といった問題に対処する。
ニューロロボティクスに関する実験により、このアプローチが頑健で適応的であり、他の最先端のRLfD手法に比べてアウト・オブ・サンプルでも良好に機能することが示される。また、関連するGitHubリポジトリでコードが提供される。

要旨: デモンストレーションからのロボット強化学習（RLfD）は、専門家データが豊富であることを前提としています。しかしこれは、現実の世界ではデータが乏しいことに加えて収集コストが高いことから、通常は非現実的です。さらに、模倣学習アルゴリズムはデータが独立かつ同一に分布していることを仮定しており、その結果、段階的な誤りが生じてテスト時の軌道の中で複合的に蓄積されるため、最終的には性能が低下します。これらの問題に対処するために、「master your own expertise（MYOE）」フレームワーク、すなわち自己模倣のフレームワークを導入します。このフレームワークは、限られたデモンストレーションデータサンプルからロボットのエージェントが複雑な行動を学習できるようにします。人間の知覚と行動に着想を得て、私たちは「問いかけ可能な嗜好の混合（queryable mixture-of-preferences）状態空間モデル（QMoP-SSM）」と呼ぶものを提案し設計しました。これは、各タイムステップで望ましい目標を推定します。これらの望ましい目標は、「嗜好レグレット（preference regret）」の計算に用いられ、その嗜好レグレットはロボットの制御ポリシーを最適化するために使用されます。実験の結果、私たちのエージェントは、他の最先端のRLfD手法と比べて、堅牢性・適応性・外部データに対する性能が優れていることを示しました。本研究を支えるGitHubリポジトリは以下で確認できます: https://github.com/rxng8/neurorobot-preference-regret-learning.

Black Hat Asia

AI Business

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

日経XTECH

限られたデモデータ下での好み（Preference）に基づく後悔（Regret）によりニューロロボットの方策を最適化する

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」 電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別