Xiaomi-Robotics-0: リアルタイム実行を実現するオープンソースのビジョン-言語-アクションモデル

arXiv cs.RO / 2026/3/26

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本論文は、高性能かつリアルタイムなロボット制御のために設計された、オープンソースのビジョン-言語-アクション(VLA)モデル「Xiaomi-Robotics-0」を紹介する。
  • 大規模なクロス胴体(cross-embodiment)のロボット軌道とビジョン-言語データを事前学習しつつ、壊滅的忘却を抑制して視覚-意味の知識を保持する学習アプローチを用いる。
  • 学習後の手法は、実ロボットのロールアウト中に推論レイテンシを削減するための非同期実行(asynchronous execution)を対象としている。
  • 展開戦略では、連続して予測されるアクションのチャンクのタイムステップを揃えることで、途切れのない連続的なリアルタイム挙動を生成する。
  • 実験の結果、シミュレーションのベンチマークで先端(state-of-the-art)の性能を示し、要求の高い2つの両腕(bimanual)実ロボット操作タスクでも強い性能を発揮した。さらに、一般向けGPUで高速なロールアウトが可能であり、コードとチェックポイントはプロジェクトサイトでオープンソース化されている。

Abstract

本報告では、高い性能と、速く滑らかなリアルタイム実行に最適化した先進的な視覚-言語-行動(VLA)モデルであるXiaomi-Robotics-0を紹介します。提案手法の鍵は、入念に設計された学習レシピとデプロイ戦略にあります。Xiaomi-Robotics-0はまず、大規模な異身体運動(cross-embodiment)のロボット軌跡と視覚-言語データで事前学習されます。これにより、基盤となる事前学習済みVLMの視覚-意味に関する知識の壊滅的忘却を回避しつつ、幅広く一般化可能な行動生成能力を獲得します。事後学習(post-training)では、実ロボットのロールアウト時に生じる推論遅延に対処するため、非同期実行向けにVLAモデルを学習するいくつかの手法を提案します。デプロイ時には、連続して予測される行動チャンクのタイムステップを慎重に整合させ、途切れのない連続的でシームレスなリアルタイムのロールアウトを保証します。シミュレーションのベンチマークおよび、精密で器用な両手(バイマニュアル)操作を必要とする2つの難易度の高い実ロボットタスクにおいて、Xiaomi-Robotics-0を徹底的に評価します。その結果、本手法はすべてのシミュレーションベンチマークで最先端の性能を達成することが示されました。さらに、Xiaomi-Robotics-0は、コンシューマ向けGPUを用いて実ロボット上で高速かつ滑らかにロールアウトでき、両方の実ロボットタスクにおいて高い成功率とスループットを実現します。今後の研究を促進するため、コードとモデルのチェックポイントは https://xiaomi-robotics-0.github.io でオープンソースとして公開しています

Xiaomi-Robotics-0: リアルタイム実行を実現するオープンソースのビジョン-言語-アクションモデル | AI Navigate