MolmoB0T: 大規模シミュレーションによりゼロショット操作を実現

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボット操作のsim-to-realには実世界でのデータ収集やタスク固有の微調整が必要だ、という一般的な考え方に挑戦し、大規模で多様な合成シミュレーションによる学習のみで強力なゼロショット転移が可能であることを示す。
MolmoSpaces上で、異なるロボット・タスク・シミュレート環境にまたがる訓練データを手続き的に生成するためのオープンソース・パイプラインであるMolmoBot-Engineを導入する。
関節を持つ物体の操作およびピック＆プレース課題のためのエキスパート軌跡1.8M件を含むデータセットMolmoBot-Dataを公開し、学習およびベンチマークを支援する。
Molmo2ベースのマルチフレーム視覚言語モデル（MolmoBot）、pi0を複製するベースライン（MolmoBot-Pi0）、軽量でエッジ志向のポリシー（MolmoBot-SPOC）を含む3つのポリシー系を学習し比較する。
Franka FR3およびRainbow Robotics RB-Y1での評価では、実世界での微調整を行わない場合でも効果的なゼロショット操作が可能であることが示され、4つの設定でテーブル上のピック＆プレースの成功率は79.2%（pi0.5は39.2%）となる。