マルチビュー・ビデオ拡散ポリシー:3Dの時空間に配慮したビデオ動作モデル

arXiv cs.RO / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、ロボットマニピュレーション向けのマルチビュー・ビデオ拡散ポリシーであるMV-VDPを提案し、環境の3D空間構造と時間発展を共同でモデル化する。
  • MV-VDPは、マルチビューのヒートマップ動画とRGB動画の両方を予測し、動画の事前学習と行動の微調整の間にある表現ギャップを埋めることを目指すとともに、解釈可能な将来状態の手がかりも生成する。
  • 著者らはデータ効率の高い性能を報告しており、追加の事前学習なしで、10本のデモンストレーション軌跡のみを用いて複雑な実世界タスクで強い結果を示すと主張している。
  • Meta-Worldおよび実環境のロボティクス・プラットフォームでの実験により、ハイパーパラメータ変更への頑健性と、分布外設定への一般化が示される。
  • MV-VDPは、動画予測ベース、3Dベース、視覚言語アクションモデルを含む従来手法よりも優れていると報告されており、データ効率の高いマルチタスク・マニピュレーションにおいて新たな最先端(SOTA)を確立する。