ワンショットの実環境デモから合成する、スケーラブルな両手(バイマニュアル)操作のためのデモンストレーション合成

arXiv cs.RO / 2026/4/28

💬 オピニオンModels & Research

要点

  • この論文はBiDemoSynという枠組みを提案し、1つの実世界の実演例から接触を伴う物理的に実行可能な両手操作デモを数千件合成できるようにします。
  • BiDemoSynはテレオペレーションとシミュレーションのトレードオフに対し、タスクを「不変な協調ブロック」と「物体依存の可変調整」に分解し、視覚によるアラインメントと軽量な軌道最適化で適応することで解決します。
  • 6つのデュアルアーム課題で実験し、BiDemoSynのデータで学習したポリシーが新しい物体の姿勢や形状に対して堅牢に一般化し、最近のベースラインを上回ることを示します。
  • この手法はワンショットにとどまらず、少数ショットでの合成にも拡張でき、物体レベルの多様性と分布外一般化を高めつつ、データ効率も維持します。
  • さらに、物体中心の観測と、簡略化した6自由度(6-DoF)エンドエフェクタ操作表現により、学習済みポリシーが新しいロボットプラットフォームへゼロショットで身体(エンボディメント)を越えて移せることも示されます。

概要: 達成困難な器用な両手操作の方策を学習するには、大規模で高品質なデモンストレーションが決定的に重要ですが、現在のパラダイムには本質的なトレードオフがあります。遠隔操作は物理的に裏付けられたデータを提供できる一方で、作業量が過度に大きく手作業中心であるため非現実的です。これに対し、シミュレーションに基づく合成は効率よくスケールさせられるものの、sim-to-real(シミュレーションから実環境)のギャップに悩まされます。本研究では、単一の実世界の例から接触が豊富で物理的に実行可能な両手デモンストレーションを合成する枠組み BiDemoSyn を提案します。中核となる考え方は、タスクを不変な協調(コーディネーション)のブロックと、対象物に依存して変化する調整に分解し、その後、視覚に導かれた整合と軽量な軌道最適化によって適応することです。これにより、繰り返しの遠隔操作や、不完全なシミュレーションへの依存なしに、数時間のうちに数千もの多様で実行可能なデモンストレーションを生成できます。6つのデュアルアーム課題において、BiDemoSyn のデータで学習した方策が、新しい対象物の姿勢や形状に対して頑健に一般化することを示し、最近の強力なベースラインを大幅に上回ります。ワンショット設定に留まらず、BiDemoSyn は自然に少数ショットに基づく合成へ拡張でき、対象物レベルの多様性と分布外一般化を向上させつつ、高いデータ効率を維持します。さらに、BiDemoSyn のデータで学習した方策は、対象物中心の観測と、方策を身体化(エンボディメント)固有の力学から切り離す単純化された 6 自由度(6-DoF)のエンドエフェクタ作用表現によって、新しいロボットプラットフォームへのゼロショットのクロスエンボディメント転移を示します。効率と実環境での忠実性のギャップを埋めることで、BiDemoSyn は、物理的な裏付けを損なうことなく、複雑な両手操作に対する実用的な模倣学習へ向けたスケーラブルな道筋を提供します。