ABot-M0:行動マニフォールド学習に基づくロボット操作のためのVLA基盤モデル

arXiv cs.RO / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ABot-M0は、異種の生データロボットデータを統一された効率的表現へと変換する、体系的なデータキュレーション・パイプラインを構築することで、汎用的な身体性のあるロボットエージェントのための枠組みを提案する。
  • 本研究では、6つの公開データセットから作成したUniACT-datasetを導入する。ここには6M+のトラジェクトリと9,500+時間が含まれ、多様なロボット形態とタスクシナリオにまたがり、プラットフォームを跨いだ汎化性能を高めるための統一的な事前学習が行われる。
  • 「行動マニフォールド仮説」を発展させ、実現可能なロボットの行動は、物理とタスクによって制約され、低次元の滑らかなマニフォールド上に存在すると主張する。そして、DiTバックボーンを用いてクリーンで連続的な行動系列を予測する行動マニフォールド学習(AML)を実装する。
  • モジュール化された知覚のために、ABot-M0は二つのストリーム設計を採用する。VLMの意味論に幾何学的な事前知識を組み合わせ、さらにプラグアンドプレイのマルチビュー3Dモジュールを統合することで空間推論を強化しつつ、典型的なVLMの3Dに関する弱点を抑える。
  • 著者らは、加法的な形でコンポーネント単位の利点が得られることを報告しており、再現性とさらなる研究のためにコードとパイプラインを公開する予定だと述べている。

要旨: 多様なハードウェアにまたがって汎用的な身体性エージェントを構築することは、ロボティクスにおいて依然として中核的な課題であり、多くの場合「1つの脳、さまざまな形」というパラダイムとして位置づけられています。進展を妨げているのは、断片化したデータ、整合していない表現、そして学習目的の不一致です。本稿では、ABot-M0という枠組みを提案します。これは、モデルのアーキテクチャと学習戦略を共同で最適化しながら、体系的なデータ選別(キュレーション)パイプラインを構築するものであり、異種の生データをエンドツーエンドで統一され効率的な表現へと変換できるようにします。公開されている6つのデータセットから、データをクリーン化し、標準化し、サンプルのバランスを調整して、UniACT-datasetを構築します。UniACT-datasetは、6百万以上の軌跡と9,500時間超のデータを含む大規模データセットであり、多様なロボットの形態とタスクシナリオを網羅しています。統一的な事前学習は、プラットフォームやタスクをまたいだ知識伝達と汎化を改善し、汎用的な身体性インテリジェンスを支えます。行動予測の効率と安定性を高めるために、我々は行動マニフォールド仮説(Action Manifold Hypothesis)を提案します。有効なロボットの行動は、全ての高次元空間にではなく、物理法則とタスク制約によって支配される低次元で滑らかなマニフォールド上に存在する、というものです。これに基づき、行動マニフォールド学習(Action Manifold Learning; AML)を導入します。AMLは、DiTバックボーンを用いて、クリーンで連続的な行動シーケンスを直接予測します。これにより、学習はデノイズから、実現可能なマニフォールドへの射影へと切り替わり、復号(デコード)の速度とポリシーの安定性が向上します。ABot-M0は、デュアルストリーム機構によってモジュール式の知覚を支援します。具体的には、VLMのセマンティクスを幾何学的事前知識と統合し、VGGTやQwen-Image-Editといったプラグアンドプレイの3Dモジュールからのマルチビュー入力を取り込みます。これにより、バックボーンを変更することなく空間理解を強化し、3D推論における一般的なVLMの制約を緩和します。実験の結果、各コンポーネントは独立に動作し、相加的な利点が得られることが示されています。再現性と今後の研究のために、すべてのコードとパイプラインを公開します。