エンボディメント・ギャップの橋渡し：非絡み（ディスエンタングルド）なクロスエンボディメント動画編集

arXiv cs.RO / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、ロボット学習における重要な課題として、人の動画からロボットの操作を学ぶ際に生じる人とロボットの分布シフトを扱います。
タスク情報とエンボディメント（運動学）を分けて表現することで、絡み合った表現になりがちな従来の問題を解決する「クロスエンボディメント動画編集」の生成フレームワークを提案しています。
二つの直交する潜在空間へ分解し、相互情報量を最小化して独立性を高めつつ、各空間内の整合性を最大化するデュアル対照学習目的を用いて、安定した表現を作ります。
フリーズした動画拡散モデルに対してパラメータ効率の高いアダプタで潜在コードを注入し、単一の人間デモから一貫性のあるロボット実行動画を合成します。
実験では、生成結果が時間的に一貫しており形状（形態）も正確であることが示され、インターネット規模の人間動画をロボット学習に活用するためのスケーラブルな解決策として位置づけています。