OmniUMI: Towards Physically Grounded Robot Learning via Human-Aligned Multimodal Interaction
arXiv cs.RO / 4/14/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- OmniUMI は、ロボット学習に必要な接触ダイナミクス(触覚、把持力、外部接触レンチ)を、RGB中心の従来手法の限界を補う形でマルチモーダルに同期収集する統一フレームワークを提案しています。
- コンパクトなハンドヘルド端末で RGB・深度・軌道に加え、触覚、内部把持力、外部相互作用レンチを取得し、同じ身体(embodiment)設計で収集と実運用の一貫性を保ちます。
- 人間に合わせたデモ取得を支えるため、両側グリッパの双方向力フィードバックと、ハンドヘルドの自然な知覚に基づく外部レンチの表現を提供します。
- OmniUMI 上で diffusion policy を拡張し、視覚・触覚・力に関する観測を用いた学習と、インピーダンス制御による運動と接触挙動の統合調整を実現し、ピック&プレース、表面消去、触覚に基づく選択的リリースで有効性を示しています。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles
Microsoft launches MAI-Image-2-Efficient, a cheaper and faster AI image model
VentureBeat

The AI School Bus Camera Company Blanketing America in Tickets
Dev.to
GPT-5.3 and GPT-5.4 on OpenClaw: Setup and Configuration...
Dev.to
GLM-5 on OpenClaw: Setup Guide, Benchmarks, and When to...
Dev.to

AI Is Turning Frontend Development Into a Probabilistic Workflow — Not a Deterministic One
Dev.to