要約: 2D 視覚表現に基づく汎用ロボットポリシーは意味推論に優れる一方で、高精度タスクに必要な明示的な3D空間認識を本質的に欠いている。既存の3D統合手法は、疎な点群の構造的不規則性と多視点正投影レンダリングによって導入される幾何学的歪みのため、このギャップを埋めるのに苦戦している。これらの障壁を克服するため、我々は標準化された透視再投影と構造認識型のデュアルストリーム拡散ポリシーを統合した新しい枠組み ReMAP-DP を提案する。再投影されたビューをピクセル整列の PointMaps と結合することで、我々のデュアルストリームアーキテクチャは学習可能なモダリティ埋め込みを活用し、凍結された意味特徴と明示的な幾何学的記述子を融合し、パッチレベルでの正確な暗黙の整合を保証する。シミュレーション環境と実世界環境にまたがる広範な実験は、ReMAP-DP が多様な操作タスクで優れた性能を示すことを示している。RoboTwin 2.0 では平均成功率 59.3% を達成し、DP3 のベースラインを +6.6% 上回る。ManiSkill 3 では、幾何的に挑戦的な Stack Cube タスクにおいて DP3 より 28% の改善をもたらす。さらに、ReMAP-DP は卓越した実世界での頑健性を示し、わずか数例のデモンストレーションからデータ効率を高めつつ高精度かつ動的な操作を実行する。プロジェクトページは以下で利用可能: https://icr-lab.github.io/ReMAP-DP/
ReMAP-DP: 拡散ポリシーのための再投影多視点整列ポイントマップ
arXiv cs.RO / 2026/3/23
📰 ニュースModels & Research
要点
- ReMAP-DP は、構造認識型のデュアルストリーム拡散ポリシーを提案し、再投影されたビューとピクセル整列のポイントマップ、および学習可能なモダリティ埋込みを統合して、凍結された意味特徴と明示的な幾何記述子を共同で活用し、正確なパッチレベルの整列を実現します。
- 透視再投影と幾何を考慮した表現を統合することにより、スパースな点群と多視点レンダリングに伴う幾何歪みの制約を克服します。
- RoboTwin 2.0 の実証結果は平均成功率 59.3% を示し、DP3 ベースラインより 6.6 ポイント向上しています。ManiSkill 3 では Stack Cube タスクで 28% の改善を報告しており、少数のデモンストレーションからのデータ効率と実世界での頑健性が高いことを示しています。
- 本研究は、シミュレーションと実世界環境の両方でクロスドメインの性能を示し、詳細はプロジェクトページにて案内されています。




