Product of Experts に基づく負のフィードバックによって模倣学習における曖昧性に対処する

arXiv cs.RO / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボットの模倣学習が、単一で非常に有能な専門家からのデモではなく、複数の専門家や不十分（準最適）な専門家からのデモによって曖昧になっている場合にどのように機能するかを研究する。
識別不能な曖昧性を解消するために、ロボット自身の失敗を用いる Product of Experts ベースの負のフィードバック・システムを提案し、一般的な「正のフィードバックのみ」を用いる模倣学習と対比する。
実験では、本手法が曖昧なタスクにおける成功率を大幅に向上させることが示され、負のフィードバックなしのベースラインに対して約90%の改善、実ロボットにおいては約50%の改善が報告されている。
本手法はシミュレーションと実ロボットの両方で評価され、同等の負のフィードバック代替手法と比較して、より効果的であるだけでなく、メモリ効率および時間効率も改善すると主張される。
本研究は、ユーザーデモがノイズを含んだり不完全になったりし得る実運用の家庭用および介助（アシスティブ）ロボティクスの場面を対象とし、「完璧なデモが与えられる」と仮定するのではなく、修正的な信号から学習することを目指す。

AI Business

日経XTECH

Simon Willison's Blog

Dev.to

Dev.to