MolmoAct2: Action Reasoning Models for Real-world Deployment
arXiv cs.RO / 5/5/2026
📰 NewsDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research
Key Points
- MolmoAct2は、ロボット向けの「Vision-Language-Action(VLA)」を現実環境で使える水準に近づけることを目的にした完全オープンのアクション推論モデルです。
- VLAの課題として、クローズド性、高価な推論基盤への依存、推論・グラウンディングに伴う過大な遅延、再学習後の成功率不足などを挙げ、それらに対処する形で前身から5つの軸で改良しています。
- 新たにMolmoER(空間・身体性推論に特化したVLMバックボーン)を提案し、3.3Mサンプル規模のデータで「specialize-then-rehearse」手法により訓練したほか、低〜中コスト基盤向けの3種のデータセット(最大規模級のオープン両腕データ含む)を公開します。
- OpenFASTとして、5種の身体(embodiment)にまたがる数百万トラジェクト上で訓練したオープンウェイト/オープンデータのアクショントークナイザを提供し、連続アクションの専門家(flow-matching)を離散トークンVLMへ接続する設計(per-layer KV-cache conditioning)を導入しています。
- さらに、変化した領域のみ深さトークンを再推論することで遅延を抑えるMolmoThinkを提案し、7つのシミュレーションおよび実環境ベンチマークで既存の強力ベースラインより高性能であることを大規模実験で示すとともに、学習コード・学習データ・モデル重みを一括で公開しています。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

Black Hat USA
AI Business

Backed by Y Combinator and 20 unicorn founders, Moritz lands $9M
Tech.eu

Why Retail Chargeback Recovery Could Be AgentHansa's First Real PMF
Dev.to

Anthropic Launches AI Services Company with Blackstone & Goldman Sachs
Dev.to

Why B2B Revenue-Recovery Casework Looks Like AgentHansa's Best Early PMF
Dev.to