XEmbodied：大規模なエンボディド環境向けの幾何学的・物理的手がかりを強化した基盤モデル

arXiv cs.RO / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

XEmbodiedは、現在のクラウド側パイプラインにおける課題（2Dの画像-テキスト事前学習では幾何学的推論やドメイン意味が不足しがち）を解消するための、Vision-Language-Action向け基盤モデルです。
構造化された3Dアダプタで3Dの幾何学的認識をモデルに内在化し、占有グリッドや3Dボックスといった物理的手がかりを、効率的なImage-Embodiedアダプタで文脈トークンとして取り込む仕組みを採用しています。
幾何を補助入力として扱うのではなく、物理シグナルをモデルの表現へ蒸留することで、エンボディド理解を高めます。
進行型のドメインカリキュラムと、強化学習のポストトレーニングを用いて、汎化能力を維持しつつ性能向上を狙っています。
18の公開ベンチマークで、空間推論、交通のセマンティクス、エンボディド・アフォーダンス、分布外汎化が改善し、大規模なシナリオマイニングやエンボディドVQAで有効であると報告しています。

Abstract

Vision-Language-Action（VLA）モデルは次世代の自律システムを駆動しますが、学習には複雑な環境からのスケーラブルで高品質なアノテーションが必要です。現在のクラウド・パイプラインでは、2Dの画像-テキスト事前学習に起因して幾何学的推論やドメイン意味論が欠けた汎用のビジョン・ランゲージ・モデル（VLM）が利用されています。この不一致に対処するために、我々はXEmbodiedを提案します。XEmbodiedはクラウド側の基盤モデルであり、VLMに内在的な3D幾何学的認識と、物理的手がかり（例：占有グリッド、3Dボックス）との相互作用を与えます。幾何を補助入力として扱うのではなく、XEmbodiedは、構造化された3D Adapterを通じて幾何表現を統合し、さらにEfficient Image-Embodied Adapterを用いて物理信号をコンテキストトークンへ蒸留します。段階的なドメイン・カリキュラムと強化学習による事後学習により、XEmbodiedは汎用能力を維持しつつ、18の公開ベンチマークにまたがって頑健な性能を示します。大規模なシナリオマイニングおよび身体化VQAにおいて、空間推論、交通意味論、身体化されたアフォーダンス、そして分布外一般化を大幅に改善します。