EmbodiedMidtrain:中間学習でVision-LanguageモデルとVision-Language-Actionモデルのギャップを橋渡しする

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Vision-Language-Action Models(VLA)は、埋め込み(embodied)領域に適応していない既製のVision-Language Models(VLM)に依存することが多く、その結果として分布ギャップが生じ、下流性能が制限される。
  • 本研究では、VLAデータがVLM全体の分布から大きく離れた、まとまった(コンパクトな)領域に位置し、さらにVLMデータソース間・同一ソース内の双方でアライメントの強さが大きく変動することを示す。
  • 提案手法「EmbodiedMidtrain」は、軽量で学習可能な近接度推定器を用いて大規模なVLMプールからVLAに整合した候補を選別し、そのキュレーション済み混合データでVLMを中間学習してからVLAの微調整に進む。
  • 3つのロボットマニピュレーションのベンチマークで、複数のVLMバックボーンに対して一貫して性能が向上し、専門的に学習されたVLAや、より大規模モデル・大きな学習予算で訓練した既製VLMに匹敵する結果が得られる。
  • 分析から、mid-trainingはVLA微調整の初期化を強化し、効果が最初期のステップから現れて学習が進むにつれて拡大することが分かり、データエンジンはデータセット単位・サンプル単位の両方で整合性を捉えつつVLMデータの多様性も維持する。

要旨: 視覚-言語-行動モデル(VLA)は、視覚-言語モデル(VLM)から視覚と言語の能力を継承しますが、ほとんどのVLAは、身体化された領域に適応されていない市販(オフ・ザ・シェルフ)のVLMを土台に構築されているため、下流の性能が制限されます。本研究では、VLMとVLAのギャップを埋めるための EmbodiedMidtrain を提案します。まず、両者の間にあるデータ分布のギャップを特徴付け、VLAデータが、より広いVLM分布から大きく分離された、コンパクトな領域を占めることを示します。また、VLMデータソースの間だけでなく、各VLMデータソース内部でも、アラインメントの度合いが大きく変動することを明らかにします。次に、大規模なVLMプールから最もVLAに整合した候補を選択するために、軽量な学習可能な近接(プロキシミティ)推定器を活用する中間学習データエンジンを構築し、その厳選した混合データ上でVLMをミッドトレーニングし、その後の下流タスクでVLAのファインチューニングを行います。3つのロボット操作ベンチマークでの実験により、中間学習は異なるVLMバックボーンにわたって一貫して性能を改善し、より大きなモデル規模と学習予算を用いて学習されたエキスパートVLAやオフ・ザ・シェルフVLMと競争力のある結果を達成することが示されます。さらに分析すると、中間学習はVLAファインチューニングに対してより強力な初期化を提供し、得られる改善が学習の最初期の段階から現れ、学習全体を通じて拡大していくことが分かります。加えて、データエンジンは、テキスト中心のタスクよりも空間推論を優先しつつ、VLMデータの多様性を維持する形で、データセットレベルとサンプルレベルの両方のアラインメント信号を捉えます。今後の研究のために、すべてのコード、データ、モデルを公開します。