要旨: 現在のVision-Language-Action(VLA)モデルは主としてエンドツーエンドの微調整に依存しています。有効ではあるものの、このパラダイムはVision-Language Models(VLMs)の本来の汎化能力を損なうだけでなく、壊滅的忘却も引き起こします。これらの制約に対処するために、我々はM^2-VLAを提案します。これは、汎化されたVLMがロボットによる操作を直接行うための強力なバックボーンとして機能できることを示します。しかし、VLMが持つ高レベルの意味理解と、ロボット制御に必要な正確な要件との間を埋めることは、依然として重要な課題です。これを克服するために、密な意味特徴からタスクにとって重要な情報を選択的に抽出するMixture of Layers(MoL)戦略を導入します。さらに、モデル容量が制約された状況で効率的な軌道学習を可能にするため、強力な帰納バイアスを統合したMeta Skill Module(MSM)を提案します。シミュレーション環境および実環境の両方で広範な実験を行い、我々のアプローチの有効性を実証します。加えて、汎化とアブレーションの研究により、このアーキテクチャのゼロショット能力が検証され、各主要コンポーネントの貢献が確認されます。なお、我々のコードおよび事前学習済みモデルは公開予定です。
M^2-VLA:レイヤーミクスチャとメタスキルによる汎用的マニピュレーションのためのビジョン・言語モデル強化
arXiv cs.RO / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Vision-Language-Action(VLA)モデルにおけるエンドツーエンドの微調整が、VLMの汎化性能を損ない、壊滅的忘却を引き起こし得ると述べ、$M^2$-VLAを提案している。
- 一般化されたVLMをロボットマニピュレーションの直接的なバックボーンとして用い、高レベルの意味理解とロボット制御の精密な要求を橋渡しすることを目指している。
- 密な意味特徴からタスクに重要な情報を取り出すために、Mixture of Layers(MoL)により層出力を選択的に強調する手法を提案する。
- モデル容量が制約される状況でも軌道学習を効率化するため、Meta Skill Module(MSM)で強い帰納バイアスを組み込む。
- シミュレーションと実環境の実験、ならびに汎化・アブレーション研究が有効性とゼロショット能力を裏付け、コードと事前学習モデルを公開予定としている。