全身モバイルマニピュレーションのためのスケーラブルな軌道生成

arXiv cs.RO / 2026/4/15

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

複数の移動ベースとアームを同時に制御する「全身モバイルマニピュレーション」では、状態空間がシーンや物体多様性により組合せ的に爆発し、大規模で物理的に妥当な軌道データが必要になるが、従来は取得が労働集約的または計算的に困難だった。
AutoMoMaはGPU加速したフレームワークで、ベース・アーム・物体の運動学を単一チェーンとして統合するAKRモデリングと、並列化された軌道最適化を組み合わせ、大規模データ生成のボトルネックを解消する。
AutoMoMaはGPUあたり1時間で5,000エピソード、計50万超の物理的に有効な軌道を330シーン・多様な関節物体・複数ロボット機体にわたって生成し、CPU基準より大幅に高速（約80倍超）である。
さらに、生成データで学習した模倣学習（IL）では、単一の関節物体タスクでもSOTA級手法が約80%成功に到達するには数万デモが必要で、データ不足がアルゴリズム上の限界より支配的だったことを示した。

Abstract

随意に構成された環境に投入されたロボットは、移動ベースとアームを同時に動かしながら、全身運動を協調させて物理世界と相互作用する必要があります。このような連動した機動性と器用さは、シーンや対象物の多様性に応じて状態空間を組合せ的に増大させ、固定ベースの操作で足りる規模を大きく超えるデータセットを要求します。しかし、テレオペレーションや計画を含む既存の獲得手法は、いずれも（人手の）労働集約的であるか、あるいは大規模化に対して計算上の制約が大きすぎます。中核となるボトルネックは、多様な機体構成と環境にわたって、大規模かつ物理的に妥当な、協調軌道データを生成するためのスケーラブルなパイプラインが欠けていることです。ここで本研究では、GPUアクセラレーションされた枠組みであるAutoMoMaを導入します。AutoMoMaは、ベース・アーム・対象物の運動学を単一の鎖に統合するAKRモデリングと、並列化された軌道最適化を統一します。AutoMoMaはGPU 1時間あたり5,000エピソードを達成（CPUベースラインに対して

80\times

以上高速）し、330のシーン、さまざまな関節化された対象物、複数のロボット実装にまたがる、物理的に妥当な軌道からなるデータセット（50万超の軌道）を生成します。従来のデータセットは、規模・多様性・運動学的忠実性のいずれかで妥協を強いられていましたが、AutoMoMaはこれら3点すべてを同時に解決します。下流のIL（模倣学習）ポリシーを学習することでさらに、単一の関節化対象物タスクでさえ、SOTA手法が

80fd0

%の成功率に到達するためには数万規模のデモンストレーションが必要であることが明らかになり、データ不足が（アルゴリズム上の）制約ではなく拘束条件であったことが確認されます。したがってAutoMoMaは、高性能な計画と信頼性のあるILベース制御をつなぐものであり、協調移動マニピュレーション研究にこれまで欠けていたインフラストラクチャを提供します。大規模で運動学的に妥当な学習データを実用化することで、AutoMoMaは、現実世界における多様で随意に構成された環境で動作可能な、一般化しうる全身ロボットポリシーを示します。