DockAnywhere：新しいデモ生成によるモバイルマニピュレーションのためのデータ効率的な視覚運動ポリシー学習

arXiv cs.RO / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

DockAnywhereは、実環境でドッキング地点が変化する状況において、モバイルマニピュレーションの視点汎化を改善するためのデータ効率的なデモ生成フレームワークを提案する。
提案手法は、ドッキングに依存するベースの動きと、接触に基づく操作スキルを分離することで、単一のデモを多様な実現可能なドッキング構成へ「持ち上げ」る。
実現可能なドッキング案は成立性制約のもとでサンプリングされ、それに対応する軌跡は構造を保つ拡張によって生成される。
視点間で観測と行動の整合性を保つため、ロボットと対象物を3Dの点群で表現し、点レベルの空間編集により視覚観測を合成する。
ManiSkillおよび実機プラットフォームでの実験により、政策の成功率が大きく向上し、学習時に未出のドッキング地点からの新規視点にも容易に汎化できることが示される。

要旨: モバイルマニピュレーションは、ロボットが家庭や工場のような広大な環境で相互作用を可能にするための基礎的な能力である。既存のほとんどの手法は二段階パラダイムに従っており、ロボットはまずドッキング地点へ移動し、その後に強力なビジュオモーターポリシーを用いて固定ベースでマニピュレーションを行う。しかし、実環境におけるモバイルマニピュレーションでは、ドッキング地点の変化により視点一般化の問題がしばしば生じる。そこで本論文では、DockAnywhere という新しい低コストのデモ生成フレームワークを提案し、ドッキングのばらつき下での視点一般化を改善する。具体的には、単一のデモンストレーションを、実現可能な多様なドッキング構成へと持ち上げることで視点の一般化を向上させる。DockAnywhere は、ドッキング依存のベース動作を、視点をまたいでも不変に保たれる接触に富んだマニピュレーション技能から切り離すことで、任意の実現可能なドッキング地点へ軌跡を持ち上げる。実現可能なドッキング提案は実現可能性の制約のもとでサンプリングされ、対応する軌跡は構造を保持する拡張によって生成される。視覚観測は、ロボットと物体を点群として表現し、視点間で観測と行動の整合性を保証するために点レベルの空間編集を適用することで、3D空間上で合成される。ManiSkill および実環境プラットフォームに関する大規模な実験により、DockAnywhere がポリシーの成功率を大幅に向上させ、訓練中に見たことのないドッキング地点からの新規視点へ容易に一般化できることが示され、実環境展開におけるモバイルマニピュレーション・ポリシーの一般化能力を大きく高める。