VLA向け3D-Mix:VGGTベースの3D情報をビジョン・ランゲージ・アクション・モデルに統合するためのプラグ&プレイ・モジュール
arXiv cs.RO / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- VLA(Vision-Language-Action)モデルは主に2Dデータで学習されるため空間知能が限定的で、操作に必要な3D知覚が不足しがちだと指摘されている。
- VGGTベースの3D情報をVLAに統合する9種類の融合方式を標準ベンチマークで比較し、タスク文脈に応じて2Dのセマンティクスと3D幾何特徴の寄与を動的に調整する「semantic-conditioned gated fusion」が最良だった。
- この知見を踏まえ、VGGTベース3D情報を多様なVLAアーキテクチャ(GR00T-style/π-style)に差し込めるプラグ&プレイモジュール「3D-Mix」を提案し、既存のMLLMやアクションエキスパートを改変せずに統合できる設計としている。
- SIMPLERとLIBEROで、複数のMLLM系列(2B〜8B、全9バリアント)に対して評価した結果、OODのSIMPLERベンチマークで平均+7.0%の一貫した性能向上が報告されている。