WARPED:自己視点の人間デモンストレーションからロボット方策学習のための手首整列レンダリング

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、自己視点の人間デモンストレーション動画から、手首整列(ロボットのような)観測を現実的に合成し、視覚運動方策を学習するためのフレームワークWARPEDを提案する。
  • 手首/手のひらレベルのカメラからデータを収集し、ビジョン基盤モデルでシーンを初期化し、手と物体の相互作用を追跡したうえで、動作をロボットの終端エフェクタへリテargetすることで、単眼のRGBデータのみを用いて学習を可能にする。
  • WARPEDはガウススプラッティングによって写真のようにリアルな手首視点入力を生成し、専用のマルチビュー/深度ハードウェアに頼る代わりに、こうした合成観測に対して方策を直接学習できる。
  • 5つの卓上操作タスクでの実験では、遠隔操作(テレオペレーション)デモンストレーションから学習した方策と同等の成功率を示し、人間のデータ収集時間を5〜8倍削減できることが確認された。

Abstract

人間のデモンストレーションから学習する分野における最近の進展は、頑健な視運動(visuomotor)ポリシーを訓練するために必要となるデータ収集のスケーラビリティと高コストという課題に対処できる有望な結果を示してきました。しかし、既存のアプローチは多くの場合、マルチビューのカメラ構成、深度センサー、あるいは専用ハードウェアへの依存によって制約されており、さらに一般的に、三人称または自己視点(egocentric)のカメラからのポリシー実行に限定されています。本論文では、人間のデモンストレーション動画から現実的な手首視点(wrist-view)観測を合成するためのフレームワークであるWARPEDを提案し、単眼のRGBデータのみを用いて視運動ポリシーの訓練を可能にします。自己視点RGBカメラから収集したデータを用いて、本システムは視覚の基盤モデルを活用し、インタラクティブなシーンを初期化します。次に、手-物体の相互作用パイプラインを用いて手と操作された物体を追跡し、軌道をロボットの終端エフェクタへとリターゲットします。最後に、ガウス・スパッティング(Gaussian Splatting)によって写真のようにリアルな手首視点観測を合成し、ロボットのポリシーを直接訓練します。WARPEDは、5つのテーブルトップ操作タスクにおいて、遠隔操作されたデモンストレーションデータで訓練したポリシーと同等の成功率を達成しながら、データ収集に必要な時間を5〜8倍少なくできることを示します。