CLAMP:コントラスト学習による3Dマルチビュー・アクション条件付きロボットマニピュレーションの事前学習

arXiv cs.RO / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、一般的な2D表現では十分に扱えない3D空間情報を学習することで、ロボットマニピュレーションにおける課題を解決する新しい3D事前学習フレームワーク「CLAMP」を提案します。
  • RGB-D入力とカメラ外部パラメータから統合したポイントクラウドを用い、深度と3D座標を含む4チャネルのマルチビュー観測(手首視点を含む)を再レンダリングして、ターゲット対象をより明確に捉えられるようにします。
  • 大規模なシミュレーション上のロボット軌跡に対してコントラスト学習を行い、エンコーダが対象物の3D形状・位置とロボットのアクションパターンの対応関係を学習します。
  • エンコーダ事前学習中に拡散ポリシーで重みを初期化することで、微調整のサンプル効率と性能を高め、その後少量のデモンストレーションで微調整します。
  • 実験の結果、CLAMPは未見タスクで学習効率とポリシー性能を大きく改善し、複数のシミュレーション課題と実環境課題において最先端ベースラインを上回ることを示します。