VLA向け3D-Mix:VGGTベースの3D情報をビジョン・ランゲージ・アクション・モデルに統合するためのプラグ&プレイ・モジュール

arXiv cs.RO / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • VLA(Vision-Language-Action)モデルは主に2Dデータで学習されるため空間知能が限定的で、操作に必要な3D知覚が不足しがちだと指摘されている。
  • VGGTベースの3D情報をVLAに統合する9種類の融合方式を標準ベンチマークで比較し、タスク文脈に応じて2Dのセマンティクスと3D幾何特徴の寄与を動的に調整する「semantic-conditioned gated fusion」が最良だった。
  • この知見を踏まえ、VGGTベース3D情報を多様なVLAアーキテクチャ(GR00T-style/π-style)に差し込めるプラグ&プレイモジュール「3D-Mix」を提案し、既存のMLLMやアクションエキスパートを改変せずに統合できる設計としている。
  • SIMPLERとLIBEROで、複数のMLLM系列(2B〜8B、全9バリアント)に対して評価した結果、OODのSIMPLERベンチマークで平均+7.0%の一貫した性能向上が報告されている。

VLA向け3D-Mix:VGGTベースの3D情報をビジョン・ランゲージ・アクション・モデルに統合するためのプラグ&プレイ・モジュール | AI Navigate