マルチモーダル・ポリシーのコンセンサスによるマルチモーダル・マニピュレーション

arXiv cs.RO / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボットのマルチモーダル・マニピュレーションにおける一般的な手法（特徴量の単純連結）の限界を扱い、支配的なセンサ（視覚）が重要だが疎になりがちな信号（触覚）を圧倒してしまう点を指摘しています。
提案手法は制御ポリシーを複数の拡散モデルに分解し、それぞれを単一モダリティ（例：視覚、触覚）に特化させ、ルーターネットワークがコンセンサス重みを学習してそれらを適応的に統合します。
新しい表現（表すモダリティ）を追加する場合や、モダリティが欠ける場合でも、単一の大規模アーキテクチャ全体を再学習せずに段階的に適応できる設計になっています。
実験ではシミュレーションのRLBenchに加え、遮蔽物のピッキング、手の中でのスプーンの向き替え、パズル挿入などの実世界タスクで、特徴量連結ベースラインより大きく性能が向上し、特にマルチモーダル推論が必要な場面で効果が示されています。
さらに、物理的撹乱やセンサの破損に対する頑健性も確認され、摂動ベースの重要度解析により状況に応じてモダリティ間で重み付けが適応的に切り替わることが明らかになっています。