3Dダイナミクスに配慮したマニピュレーション:3D先読みによってマニピュレーション・ポリシーに能力を付与する

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 2Dベースの視覚ダイナミクスを用いる既存手法では、奥行き方向の大きな移動を伴う操作タスクで頑健性が不足するという課題を指摘しています。
  • 3Dワールドモデリングとポリシー学習を統合した「3D dynamics-aware manipulation」フレームワークを提案し、3D先読み(3D foresight)を操作ポリシーに付与します。
  • フレームワーク内で自己教師ありの3つの学習タスク(現在の深度推定、将来RGB-D予測、3Dフロー予測)を導入し、互いに補完し合う形で3D予測能力を学習します。
  • シミュレーションと実環境の広範な実験により、推論速度を落とさずに操作性能を大幅に向上できることを報告しています。

Abstract

操作ポリシー学習への世界モデル化の導入は、操作の性能の限界を押し広げてきました。しかし、既存の取り組みは単に2次元の視覚ダイナミクスをモデル化するだけであり、対象タスクが目立った奥行き方向の移動を伴う場合の、堅牢な操作には不十分です。そこで本論文では、3D世界モデル化とポリシー学習をシームレスに統合する、3Dダイナミクス認識型の操作フレームワークを提案します。このフレームワーク内では、3つの自己教師あり学習タスク(現在の深度推定、将来のRGB-D予測、3Dフロー予測)を導入しており、これらは互いに補完し合い、ポリシーモデルに3Dの見通し(foresight)を与えます。シミュレーションおよび実世界における大規模な実験により、3Dの見通しは、推論速度を犠牲にすることなく、操作ポリシーの性能を大幅に向上できることが示されます。コードは https://github.com/Stardust-hyx/3D-Foresight で公開されています。