Point Bridge:ドメイン横断型ポリシー学習のための3D表現

arXiv cs.RO / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、合成シミュレーションデータのみを用いてロボットのマニピュレーション・エージェントを訓練し、視覚ドメインギャップにもかかわらずゼロショットのシム-to-リアル(sim-to-real)ポリシー転移を可能にするためのフレームワーク「Point Bridge」を提案する。
  • Point Bridgeは、Vision-Language Models(VLMs)から自動的に抽出される、ドメイン非依存の点ベース表現を用いることで、シムとリアルの間で明示的な視覚的または物体レベルの対応付けを行う必要を回避する。
  • それは、トランスフォーマー型のポリシー学習と、効率的な推論時パイプラインを組み合わせることで、実環境のマニピュレーション課題で動作可能なポリシーを生成する。
  • 少量の実デモンストレーションとの共同学習(co-training)を追加することでさらに性能が向上し、単一タスクおよびマルチタスクの設定において、ゼロショット転移で最大44%の改善、限られた実データを用いた場合で最大66%の改善が報告されている。
  • 本研究は、合成データを現実により転移しやすくすることで、データ効率の高い「ロボット・ファウンデーションモデル」学習に向けた一歩として位置づけられる。