BifrostUMI：ロボットなしのデモとヒューマノイドの全身操作をつなぐ

arXiv cs.RO / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

BifrostUMIは、ロボットテレオペーションに伴う制約を避けつつ、ヒューマノイドの全身ビジュオモトリ政策を学習するためのロボット不要のデータ収集フレームワークです。
軽量なVRを用いて、人のデモンストレーションから疎なキーポイント軌跡を記録すると同時に、手首装着の視覚データも取得し、多モーダルな学習データを作成します。
取得した視覚特徴に条件付けて、将来のキーポイント軌跡を予測する高レベルのポリシーネットワークを学習し、その軌跡をロボットの身体形状に合わせてレタゲティングします。
キーポイントのレタゲティング処理と全身コントローラにより、自然な人のデモから得られた機敏な行動をヒューマノイドで精密に実行できます。
2つの異なる実験シナリオで有効性と汎用性が示されたと報告されています。

Abstract

高品質なデータ収集は、人型ロボットの全身視覚運動ポリシーを学習するうえでの基礎となる重要な柱です。現在のデータ取得パラダイムは主にロボットの遠隔操作に依存しており、しばしばハードウェアへのアクセスの制約や運用効率の低さによって妨げられます。ユニバーサル・マニピュレーション・インターフェース（UMI）に触発され、我々は人型ロボット向けに設計された、携帯可能で効率的かつロボット不要のデータ収集フレームワークであるBifrostUMIを提案します。BifrostUMIは軽量なVRデバイスを活用して、人間のデモンストレーションを疎なキーポイント軌跡として取得しつつ、同時に手首に装着した視覚データも記録します。これらのマルチモーダルデータは、その後、捕捉した視覚特徴に条件付けられて将来のキーポイント軌跡を予測する高レベルのポリシーネットワークの学習に用いられます。堅牢なキーポイント・リターゲティング（対応付け）パイプラインにより、キーポイント軌跡をロボットの形態へ正確にマッピングし、全身コントローラによって実行します。このアプローチにより、自然な人間のデモンストレーションから多様で機敏な行動を人型ロボットの実装へシームレスに移転することが可能になります。提案フレームワークの有効性と汎用性を、2つの異なる実験シナリオにわたって実証します。