Lucid-XR:ロボット操作のための拡張現実(XR)データ・エンジン

arXiv cs.CV / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、実世界のロボットによるマニピュレーション向けの学習データを生成するための、生成型マルチモーダル・データエンジン「Lucid-XR」を提案する。
  • Lucid-XRの中核である「vuer」は、XRヘッドセット上で動作するウェブベースの物理シミュレーションであり、低遅延かつインターネット規模で没入的な仮想インタラクションを利用できる。
  • システムは、オンデバイスの物理シミュレーションと人の姿勢からロボットへのポーズ・リタゲティングを統合し、さらに自然言語で制御できる物理誘導型の動画生成パイプラインでデータ拡張を行う。
  • 合成データのみで学習したロボットの視覚ポリシーが、未見の環境(散らかり、暗所など)へゼロショットで転移できることを著者らは示している。
  • デモは、軟らかい素材、ゆるく束縛された粒子、剛体接触といった要素を含む複数の巧緻操作タスクを扱う。

要旨: 私たちは、現実世界のロボットシステムを訓練するための、多様でリアルに見えるマルチモーダルデータを生成する生成データエンジンであるLucid-XRを導入します。Lucid-XRの中核には、XRヘッドセット上で直接動作するWebベースの物理シミュレーション環境であるvuerがあります。これにより、特殊な機器を必要とせずに、没入的でレイテンシのない仮想インタラクションをインターネット規模で利用可能にします。完全なシステムは、オンデバイスの物理シミュレーションと、人からロボットへの姿勢リタゲティング(再ターゲット)を統合しています。収集されたデータはさらに、自然言語による仕様によって制御可能な、物理ガイド付きの動画生成パイプラインによって増幅されます。Lucid-XRの合成データのみで訓練した後、ロボットの視覚ポリシーのゼロショット転移を、未見で、物が散乱し、照明が不適切な評価環境に対して示します。軟らかい素材、ゆるく結合した粒子、剛体同士の接触を伴う、巧緻なマニピュレーション課題にまたがる例を含めます。プロジェクトのWebサイト: https://lucidxr.github.io