UMI-3D:視覚に制約されたユニバーサル・マニピュレーション・インターフェースを3D空間認識へ拡張する
arXiv cs.RO / 2026/4/16
📰 ニュースSignals & Early TrendsModels & Research
要点
- UMI-3Dは、UMIの単眼の視覚のみSLAMという制約を超えて、身体性のある操作(embodied manipulation)データ収集を改善することを目的とした、ユニバーサル・マニピュレーション・インターフェース(UMI)のマルチモーダル拡張である。
- 軽量で低コストの手首装着型LiDARセンサを統合し、LiDAR中心のSLAMを用いることで、UMI-3Dは、遮蔽がある状況・動的環境・追跡失敗といったシナリオにおいても、頑健で正確なメートルスケールの姿勢推定を提供する。
- 本研究では、ハードウェア同期されたマルチモーダルセンシングのパイプラインと、視覚観測とLiDAR点群を整合させてデモンストレーションを一貫した3D表現へと統合する統一的な時空間キャリブレーション手法を導入する。
- UMI-3Dは元の2Dの視覚運動(visuomotor)ポリシーの定式化を維持しつつ、より高品質で信頼性の高いデータを提供する。これにより、ポリシー性能の向上につながり、さらに視覚のみのUMIでは困難または不可能であった、変形物体や関節のある物体の操作といった学習タスクを可能にする。
- 本システムは、取得・アラインメント・学習・デプロイまでのエンドツーエンドのワークフローを備え、大規模な身体性のある知能(embodied intelligence)研究を支援するために、ハードウェアとソフトウェアをオープンソースとして公開する。




