MotuBrain:ロボット制御のための高度なワールドアクションモデル

arXiv cs.RO / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • MotuBrainは、ロボット制御のために世界のダイナミクスをよりきめ細かく捉えることを目的とした、新しいVision-Language-Action(VLA)型のワールドアクションモデルです。
  • MotuBrainはUniDiffuserの定式化と、3ストリームのMixture-of-Transformersアーキテクチャにより、動画と行動を一体としてモデル化します。
  • 1つのMotuBrainモデルで、方策学習、ワールドモデリング、動画生成、逆ダイナミクス、動画と行動の同時予測など複数の推論モードを扱えます。
  • 動画のみのデータや異なる身体(エンボディメント)を持つロボットデータなど、異種のマルチモーダルデータにまたがってスケールすることを重視して設計されています。
  • 実運用に向けて、統一されたマルチビュー表現と明示的な言語-行動カップリング、および効率的な推論スタックを導入し、リアルタイム展開で50倍超の高速化を達成したと報告されています。

要旨: Vision-Language-Action(VLA)モデルは強力な意味的汎化を達成しますが、しばしば世界のダイナミクスをきめ細かくモデリングすることができません。近年の研究では、世界モデリングの基盤としてビデオ生成モデルを扱うことが探究されており、視覚的ダイナミクスと行動を同時にモデル化する統一型World Action Models(WAMs)へとつながっています。本稿では、UniDiffuserの定式化のもとで、3ストリームのMixture-of-Transformersアーキテクチャを用いる、動画と行動を同時にモデル化する統一マルチモーダル生成モデルMotuBrainを提案します。単一のモデルは、方策学習、世界モデリング、ビデオ生成、逆ダイナミクス、そして動画-行動の同時予測を含む複数の推論モードをサポートし、動画のみのデータや、異なる体(embodiment)を持つロボットデータといったヘテロなマルチモーダルデータへとスケール可能です。現実世界での適用性を高めるために、MotuBrainは統一されたマルチビュー表現、明示的な言語-行動の結合、そして効率的な推論スタックを導入し、リアルタイム展開において50倍超の高速化を実現します。