X-Diffusion:異種身体(クロス・エンボディメント)の人間デモンストレーションに基づく拡散ポリシーの学習

arXiv cs.RO / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、人間とロボットの身体的実現(エンボディメント)が一致しない場合でも、人間のデモンストレーション動画からロボットの拡散ポリシーを学習するための枠組みであるX-Diffusionを提案する。

概要: 人間の動画は、ロボット学習のための訓練データを大規模に提供できる情報源です。しかし、人間とロボットでは身体の構成が大きく異なるため、多くの人間の動作はロボット上で直接実行することが不可能です。それでも、これらのデモンストレーションは、対象物との相互作用に関する豊かな手がかりと、課題に対する意図を伝えています。私たちの目標は、この粗いガイダンスから学ぶことであり、身体に特有で、かつ実行不可能な戦略を移転することは避けることです。近年の生成モデリングの発展は、低品質データから学習するという関連した問題に取り組んでいます。特に、Ambient Diffusion(周囲拡散)は、順方向拡散プロセスにおいて高ノイズのタイムステップだけで低品質データを取り込む、拡散モデリングのための最近の手法です。私たちの重要な洞察は、人間の動作をロボットの動作のノイズを含んだ対応物として捉えることです。順方向拡散プロセスが進むにつれてノイズが増大すると、身体に特有な違いは薄れていく一方で、課題に関連するガイダンスは保持されます。これらの観察に基づき、私たちはAmbient Diffusionに基づくクロス身体(cross-embodiment)学習の枠組みであるX-Diffusionを提案します。これは、ノイズを付与した人間の動作に対して拡散ポリシーを選択的に訓練するものです。これにより、ロボットの実行可能性を損なうことなく、収集が容易な人間の動画を効果的に活用できます。5つの実世界のマニピュレーション課題において、X-Diffusionは、単純な共同学習と手作業によるデータのフィルタリングに比べて平均成功率を16%向上させることを示します。プロジェクトのWebサイトは https://portal-cornell.github.io/X-Diffusion/ で利用できます。