UMI-3D：視覚に制約されたユニバーサル・マニピュレーション・インターフェースを3D空間認識へ拡張する

arXiv cs.RO / 2026/4/16

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

UMI-3Dは、UMIの単眼の視覚のみSLAMという制約を超えて、身体性のある操作（embodied manipulation）データ収集を改善することを目的とした、ユニバーサル・マニピュレーション・インターフェース（UMI）のマルチモーダル拡張である。
軽量で低コストの手首装着型LiDARセンサを統合し、LiDAR中心のSLAMを用いることで、UMI-3Dは、遮蔽がある状況・動的環境・追跡失敗といったシナリオにおいても、頑健で正確なメートルスケールの姿勢推定を提供する。
本研究では、ハードウェア同期されたマルチモーダルセンシングのパイプラインと、視覚観測とLiDAR点群を整合させてデモンストレーションを一貫した3D表現へと統合する統一的な時空間キャリブレーション手法を導入する。
UMI-3Dは元の2Dの視覚運動（visuomotor）ポリシーの定式化を維持しつつ、より高品質で信頼性の高いデータを提供する。これにより、ポリシー性能の向上につながり、さらに視覚のみのUMIでは困難または不可能であった、変形物体や関節のある物体の操作といった学習タスクを可能にする。
本システムは、取得・アラインメント・学習・デプロイまでのエンドツーエンドのワークフローを備え、大規模な身体性のある知能（embodied intelligence）研究を支援するために、ハードウェアとソフトウェアをオープンソースとして公開する。

Abstract

本稿では、体に装着したマニピュレーションにおける堅牢でスケーラブルなデータ収集のための、Universal Manipulation Interface (UMI) のマルチモーダル拡張である UMI-3D を提案します。UMI は携帯可能で、手首に装着したデータ取得を可能にしますが、その単眼視覚 SLAM への依存は、遮蔽物、動的シーン、トラッキング失敗に対して脆弱であり、実環境での適用性を制限しています。UMI-3D は、手首装着型インターフェースに密に統合された軽量で低コストな LiDAR センサーを導入することで、これらの制約を解決します。これにより、困難な条件下でも正確なメートルスケールの姿勢推定を実現する LiDAR 中心の SLAM が可能になります。さらに、ハードウェア同期されたマルチモーダルセンシングのパイプラインと、視覚観測と LiDAR の点群を整合させてデモンストレーションの一貫した 3D 表現を生成する統一的な時空間キャリブレーションの枠組みを発展させます。元の 2D 視覚運動ポリシーの定式化を維持しつつも、UMI-3D は収集データの質と信頼性を大幅に向上させ、これはポリシー性能の向上へ直接つながります。広範な実環境実験により、UMI-3D が標準的なマニピュレーション課題において高い成功率を達成するだけでなく、元の視覚のみの UMI 設定では困難または不可能だった課題、たとえば大きな変形可能物体のマニピュレーションや、関節を持つ物体の操作の学習も可能にすることを示します。本システムは、データ取得、アラインメント、学習、デプロイメントのためのエンドツーエンドのパイプラインをサポートし、同時に元の UMI の携帯性とアクセス性を保持します。大規模なデータ収集を促進し、体に装着した知能に関する研究を加速するために、すべてのハードウェアおよびソフトウェア構成要素をオープンソース化しています： \href{https://umi-3d.github.io}{https://umi-3d.github.io}。