XEmbodied:大規模なエンボディド環境向けの幾何学的・物理的手がかりを強化した基盤モデル
arXiv cs.RO / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- XEmbodiedは、現在のクラウド側パイプラインにおける課題(2Dの画像-テキスト事前学習では幾何学的推論やドメイン意味が不足しがち)を解消するための、Vision-Language-Action向け基盤モデルです。
- 構造化された3Dアダプタで3Dの幾何学的認識をモデルに内在化し、占有グリッドや3Dボックスといった物理的手がかりを、効率的なImage-Embodiedアダプタで文脈トークンとして取り込む仕組みを採用しています。
- 幾何を補助入力として扱うのではなく、物理シグナルをモデルの表現へ蒸留することで、エンボディド理解を高めます。
- 進行型のドメインカリキュラムと、強化学習のポストトレーニングを用いて、汎化能力を維持しつつ性能向上を狙っています。
- 18の公開ベンチマークで、空間推論、交通のセマンティクス、エンボディド・アフォーダンス、分布外汎化が改善し、大規模なシナリオマイニングやエンボディドVQAで有効であると報告しています。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA