Xiaomi-Robotics-0: リアルタイム実行を実現するオープンソースのビジョン-言語-アクションモデル
arXiv cs.RO / 2026/3/26
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 本論文は、高性能かつリアルタイムなロボット制御のために設計された、オープンソースのビジョン-言語-アクション(VLA)モデル「Xiaomi-Robotics-0」を紹介する。
- 大規模なクロス胴体(cross-embodiment)のロボット軌道とビジョン-言語データを事前学習しつつ、壊滅的忘却を抑制して視覚-意味の知識を保持する学習アプローチを用いる。
- 学習後の手法は、実ロボットのロールアウト中に推論レイテンシを削減するための非同期実行(asynchronous execution)を対象としている。
- 展開戦略では、連続して予測されるアクションのチャンクのタイムステップを揃えることで、途切れのない連続的なリアルタイム挙動を生成する。
- 実験の結果、シミュレーションのベンチマークで先端(state-of-the-art)の性能を示し、要求の高い2つの両腕(bimanual)実ロボット操作タスクでも強い性能を発揮した。さらに、一般向けGPUで高速なロールアウトが可能であり、コードとチェックポイントはプロジェクトサイトでオープンソース化されている。