ビジョン・ランゲージ・アクションモデルへの物理的フィードバック統合のためのモジュール式センソリーストリーム

arXiv cs.RO / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、単一の物理モダリティに限定せず複数の異種物理信号を取り込める Vision-Language-Action（VLA）向けのモジュール式センソリーストリーム「MoSS」を提案しています。
MoSSは、分離したモダリティストリームと共同クロスモーダル自己注意を用いて、異なる物理信号を統合した行動予測ストリームへ融合します。
新しいセンシング・モダリティを追加しても性能が崩れないよう、学習を2段階に分け、初期段階では事前学習済みのVLAパラメータを凍結します。
接触インタラクションのダイナミクスをより捉えるために、将来の物理信号を予測する補助タスクも導入しています。
実世界での実験により、MoSSが触覚やトルクなどの多様な信号を統合して活用でき、相乗的な性能向上を達成することが示されています。

要旨: 人間は視覚認識を超えた多様な身体的フィードバックに依存することで、現実世界を理解し相互作用している。これに動機づけられて、近年のアプローチでは、物理的な感覚信号をビジョン・言語・行動モデル（VLA）へ取り込もうとする試みが行われている。しかし、これらは通常、単一の種類の物理信号に注目しており、現実世界の相互作用に見られる不均質で補完的な性質を捉えきれていない。本論文では、行動予測のために複数の感覚信号を活用するようVLAを適応させる、モジュール型感覚ストリームの枠組みであるMoSSを提案する。具体的には、異種の物理信号を共同のクロスモーダル自己注意により行動ストリームへ統合する、デカップルされたモダリティ・ストリームを導入する。新しいモダリティを安定に組み込むことを可能にするため、初期段階では事前学習済みのVLAパラメータを凍結する二段階の学習スキームを採用する。さらに、接触相互作用のダイナミクスをより適切に捉えるため、将来の物理信号を予測する補助タスクを組み込む。大規模な実世界実験を通じて、MoSSが多様な物理信号（すなわち触覚とトルク）を活用するためにVLAをうまく拡張でき、複数の信号を統合することで相乗的な性能向上を達成することを示す。