MolmoAct2: Action Reasoning Models for Real-world Deployment

arXiv cs.RO / 5/5/2026

📰 NewsDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

Key Points

  • MolmoAct2は、ロボット向けの「Vision-Language-Action(VLA)」を現実環境で使える水準に近づけることを目的にした完全オープンのアクション推論モデルです。
  • VLAの課題として、クローズド性、高価な推論基盤への依存、推論・グラウンディングに伴う過大な遅延、再学習後の成功率不足などを挙げ、それらに対処する形で前身から5つの軸で改良しています。
  • 新たにMolmoER(空間・身体性推論に特化したVLMバックボーン)を提案し、3.3Mサンプル規模のデータで「specialize-then-rehearse」手法により訓練したほか、低〜中コスト基盤向けの3種のデータセット(最大規模級のオープン両腕データ含む)を公開します。
  • OpenFASTとして、5種の身体(embodiment)にまたがる数百万トラジェクト上で訓練したオープンウェイト/オープンデータのアクショントークナイザを提供し、連続アクションの専門家(flow-matching)を離散トークンVLMへ接続する設計(per-layer KV-cache conditioning)を導入しています。
  • さらに、変化した領域のみ深さトークンを再推論することで遅延を抑えるMolmoThinkを提案し、7つのシミュレーションおよび実環境ベンチマークで既存の強力ベースラインより高性能であることを大規模実験で示すとともに、学習コード・学習データ・モデル重みを一括で公開しています。

Abstract

Vision-Language-Action (VLA) models aim to provide a single generalist controller for robots, but today's systems fall short on the criteria that matter for real-world deployment. Frontier models are closed, open-weight alternatives are tied to expensive hardware, reasoning-augmented policies pay prohibitive latency for their grounding, and fine-tuned success rates remain below the threshold for dependable use. We present MolmoAct2, a fully open action reasoning model built for practical deployment, advancing its predecessor along five axes. We introduce MolmoER, a VLM backbone specialized for spatial and embodied reasoning, trained on a 3.3M-sample corpus with a specialize-then-rehearse recipe. We release three new datasets spanning low-to-medium cost platforms, including MolmoAct2-BimanualYAM, 720 hours of teleoperated bimanual trajectories that constitute the largest open bimanual dataset to date, together with quality-filtered Franka (DROID) and SO100/101 subsets. We provide OpenFAST, an open-weight, open-data action tokenizer trained on millions of trajectories across five embodiments. We redesign the architecture to graft a flow-matching continuous-action expert onto a discrete-token VLM via per-layer KV-cache conditioning. Finally, we propose MolmoThink, an adaptive-depth reasoning variant that re-predicts depth tokens only for scene regions that change between timesteps, retaining geometric grounding at a fraction of prior latency. In the most extensive empirical study of any open VLA to date, spanning 7 simulation and real-world benchmarks, MolmoAct2 outperforms strong baselines including Pi-05, while MolmoER surpasses GPT-5 and Gemini Robotics ER-1.5 across 13 embodied-reasoning benchmarks. We release model weights, training code, and complete training data. Project page: https://allenai.org/blog/molmoact2