概要: 私たちは、Autonomous Driving(自動運転)とEmbodied AI(身体化されたAI)の両方において統合を達成し、最先端の性能を実現した、初のクロス・エンボディド(複数の身体形態にまたがる)基盤モデルであるMiMo-Embodiedをオープンソースとして公開します。MiMo-Embodiedは、タスク計画(Task Planning)、アフォーダンス予測(Affordance Prediction)、空間理解(Spatial Understanding)における17の身体化AIベンチマークすべてで新記録を樹立する一方で、環境認識(Environmental Perception)、ステータス予測(Status Prediction)、運転計画(Driving Planning)における12の自動運転ベンチマークでも高い性能を発揮します。これらのタスクにおいて、MiMo-Embodiedは既存のオープンソース/クローズドソース、および専門的なベースラインを大きく上回ります。私たちの結果は、多段階学習、厳選したデータ構築、そしてCoT/RLファインチューニングを通じて、これら2つの領域が強い正の転移を示し、互いに強化し合うことを示しています。さらなる研究を促進するために、モデル設計と学習手法について詳細な分析を提供します。コードとモデルは https://github.com/XiaomiMiMo/MiMo-Embodied で利用可能です。
MiMo-Embodied:X-Embodied基盤モデル技術レポート
arXiv cs.RO / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 同論文では、自動運転とエンボディッドAIの両方のタスクで高い性能を狙ったオープンソースの基盤モデル「MiMo-Embodied」を公開します。
- 同モデルは、タスク計画、アフォーダンス予測、空間理解を含む17のエンボディッドAIベンチマークで新記録を達成し、最先端の結果(SOTA)を示します。
- さらに環境認識、状態予測、運転計画といった領域をカバーする12の自動運転ベンチマークでも優れた性能を示します。
- 著者らは、多段階学習、厳選したデータ構築、CoT/RL(Chain-of-Thought強化学習)による微調整によって、両ドメイン間で強い正の転移が生まれると報告しています。
- モデル設計と学習手法に関する詳細な分析が提供されており、今後の研究を後押ししつつ、コードとモデルはGitHubで公開されています。



