OmniUMI:人間に整合したマルチモーダルな相互作用によって、物理的に根拠づけられたロボット学習へ

arXiv cs.RO / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • OmniUMI は、ロボット学習に必要な接触ダイナミクス(触覚、把持力、外部接触レンチ)を、RGB中心の従来手法の限界を補う形でマルチモーダルに同期収集する統一フレームワークを提案しています。
  • コンパクトなハンドヘルド端末で RGB・深度・軌道に加え、触覚、内部把持力、外部相互作用レンチを取得し、同じ身体(embodiment)設計で収集と実運用の一貫性を保ちます。
  • 人間に合わせたデモ取得を支えるため、両側グリッパの双方向力フィードバックと、ハンドヘルドの自然な知覚に基づく外部レンチの表現を提供します。
  • OmniUMI 上で diffusion policy を拡張し、視覚・触覚・力に関する観測を用いた学習と、インピーダンス制御による運動と接触挙動の統合調整を実現し、ピック&プレース、表面消去、触覚に基づく選択的リリースで有効性を示しています。

要旨: UMIスタイルのインターフェースはスケーラブルなロボット学習を可能にしますが、既存のシステムは依然として主に視覚運動(visuomotor)にとどまり、RGB観測と軌道に主として依存している一方で、物理的な相互作用の信号へのアクセスは限定的です。これは、接触に富む操作(contact-rich manipulation)における根本的な制約となります。成功は、触覚による相互作用、内部把持力、外部相互作用の関節トルク(interaction wrench)といった接触ダイナミクスに依存しますが、これらは視覚だけから推定することが困難です。本稿では、人に整合したマルチモーダル相互作用による、物理的に基礎づけられたロボット学習のための統一フレームワークであるOmniUMIを提案します。OmniUMIは、コンパクトな手持ち型システム内で、RGB、深度、軌道、触覚センシング、内部把持力、外部相互作用の関節トルクを同期して取得しつつ、共有された身体(embodiment)設計によって収集—展開(collection--deployment)の一貫性を維持します。人に整合したデモンストレーションを支援するために、OmniUMIは、左右の把持器フィードバックによるデュアル(双方向)力フィードバックと、手持ち型の身体における外部相互作用の関節トルクの自然な知覚を提供します。このインターフェースに基づき、拡散ポリシー(diffusion policy)を視覚、触覚、および力に関連する観測で拡張し、学習したポリシーをインピーダンスに基づく実行によって展開することで、運動と接触挙動を統一的に調整します。実験により、力に敏感なピッキング&プレース、対話的な表面の消去、触覚に導かれた選択的リリースにおいて、信頼性の高いセンシングと強力な下流性能が示されます。総じて、OmniUMIは、人に整合した相互作用と結びついた、物理的に基礎づけられたマルチモーダルデータ獲得を統合し、接触に富む操作を学習するためのスケーラブルな基盤を提供します。