VLA向け3D-Mix：VGGTベースの3D情報をビジョン・ランゲージ・アクション・モデルに統合するためのプラグ＆プレイ・モジュール

arXiv cs.RO / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

VLA（Vision-Language-Action）モデルは主に2Dデータで学習されるため空間知能が限定的で、操作に必要な3D知覚が不足しがちだと指摘されている。
VGGTベースの3D情報をVLAに統合する9種類の融合方式を標準ベンチマークで比較し、タスク文脈に応じて2Dのセマンティクスと3D幾何特徴の寄与を動的に調整する「semantic-conditioned gated fusion」が最良だった。
この知見を踏まえ、VGGTベース3D情報を多様なVLAアーキテクチャ（GR00T-style/π-style）に差し込めるプラグ＆プレイモジュール「3D-Mix」を提案し、既存のMLLMやアクションエキスパートを改変せずに統合できる設計としている。
SIMPLERとLIBEROで、複数のMLLM系列（2B〜8B、全9バリアント）に対して評価した結果、OODのSIMPLERベンチマークで平均+7.0%の一貫した性能向上が報告されている。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH