MolmoAct2:実環境展開に向けたアクション推論モデル

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • MolmoAct2は、ロボット向けの「Vision-Language-Action(VLA)」を現実環境で使える水準に近づけることを目的にした完全オープンのアクション推論モデルです。
  • VLAの課題として、クローズド性、推論に高価な計算基盤が必要な点、推論補助・グラウンディングに伴う過大な遅延、再学習後の成功率不足などを挙げ、それらに対処する形で前身から5つの軸で改良しています。
  • 新たにMolmoER(空間・身体性推論に特化したVLMバックボーン)を提案し、3.3Mサンプル規模のデータで「specialize-then-rehearse」手法により訓練したほか、低〜中コスト基盤向けの3種のデータセット(最大規模級のオープン両腕データ含む)を公開します。
  • OpenFASTとして、5種類の身体(embodiment)にまたがる数百万トラジェクト上で訓練した、オープンウェイト/オープンデータのアクショントークナイザを提供し、連続アクションの専門家(flow-matching)を離散トークンVLMへ接続する設計(per-layer KV-cache conditioning)を導入しています。
  • さらに、変化した領域のみ深さトークンを再推論することで遅延を抑えるMolmoThinkを提案し、7つのシミュレーションおよび実環境ベンチマークで既存の強力ベースラインを上回ると報告し、モデル重み・学習コード・学習データを公開しています。

Abstract

言語-視覚-行動(VLA)モデルは、ロボットに対する単一の汎用コントローラを提供することを目指していますが、今日のシステムは、実環境への展開で重要となる基準を満たせていません。最先端モデルはクローズドであり、オープンウェイトの代替は高価なハードウェアに結び付けられており、推論を補強した方策は、その根拠付け(グラウンディング)に際して容認できないほどのレイテンシを要し、微調整による成功率は信頼できる利用のための閾値を下回っています。私たちは、実運用向けに構築された完全オープンの行動推論モデルであるMolmoAct2を提示し、前身を5つの軸に沿って前進させます。空間的かつ身体化された推論に特化したVLMバックボーンであるMolmoERを導入します。これは、3.3Mサンプルのコーパスを対象に、specialize-then-rehearse(特化してからリハーサンスする)という手順で学習されました。さらに、低〜中コストのプラットフォームにまたがる3つの新しいデータセットを公開します。MolmoAct2-BimanualYAMは、これまで最大のオープンな両手(バイマニュアル)データセットを構成する、遠隔操作された両手軌跡720時間に加え、品質フィルタリング済みのFranka(DROID)およびSO100/101のサブセットを含みます。私たちは、5つの身体化(エンボディメント)にわたって数百万の軌跡で学習された、オープンウェイトかつオープンデータの行動トークナイザであるOpenFASTを提供します。次に、層ごとのKV-cache条件付けによって、離散トークンのVLMに連続アクションのフローマッチング専門家を移植(接ぎ木)するように、アーキテクチャを再設計します。最後に、MolmoThinkという適応的深さの推論バリアントを提案します。これは、各タイムステップ間で変化するシーン領域に対してのみ深さトークンを再予測し、先行のレイテンシの一部の割合で幾何学的なグラウンディングを維持します。これまでのいかなるオープンVLAよりも大規模な経験的研究として、7つのシミュレーションおよび実環境のベンチマークを対象に行ったところ、MolmoAct2はPi-05を含む強力なベースラインを上回りました。またMolmoERは、13の身体化された推論ベンチマークにおいて、GPT-5およびGemini Robotics ER-1.5を上回ります。モデルの重み、学習コード、そして完全な学習データを公開します。プロジェクトページ: https://allenai.org/blog/molmoact2