AI Navigate

RoboStereo: 統一ポリシー最適化のための対称的デュアルタワー型4D身体性ワールドモデル

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • RoboStereoは、対称的なデュアルタワー型4D身体性ワールドモデルと双方向のクロスモーダル強化を導入し、想像ロールアウト時の時空間幾何的一貫性を保証し、物理的幻像を低減します。
  • 本論文は、Test-Time Policy Augmentation (TTPA)、Imitative-Evolutionary Policy Learning (IEPL)、Open-Exploration Policy Learning (OEPL) を含む、ワールドモデルに基づくポリシー最適化の初の統一フレームワークを提示します。
  • 実験では、最先端の生成品質と細かな操作タスクにおける平均相対改善率が97%を超えることを報告しており、統一手法の有効性を示しています。
  • 本研究は、安全な検証の実現、模倣学習の改善、自律的なスキル発見を可能にすることで、スケーラブルな身体性を持つAI研究および下流のロボティクス・ポリシー学習ワークフローに寄与します。

要約: スケーラブルな身体性AIは、現実世界の相互作用に伴う高額なコストと安全性リスクのため、根本的な制約に直面しています。身体性ワールドモデル(EWMs)は想像上のロールアウトを通じて有望性を示しますが、既存のアプローチは幾何学的幻視に悩まされ、実践的なポリシー改善のための統一最適化フレームワークを欠いています。我々はRoboStereoを紹介します。対称的なデュアルタワー型の4Dワールドモデルで、双方向のクロスモーダル強化を用いて時空間の幾何的一貫性を保証し、物理的幻視を緩和します。この高忠実度の4Dシミュレータを基盤として、ワールドモデルベースのポリシー最適化の初の統一フレームワークを提示します:(1)事前実行検証のためのテスト時ポリシー増強(Test-Time Policy Augmentation:TTPA)、(2)専門家のデモンストレーションから学ぶために視覚的知覚報酬を活用する模倣-進化的ポリシー学習(Imitative-Evolutionary Policy Learning:IEPL)、(3)自律的なスキル発見と自己修正を可能にする開放的探索ポリシー学習(Open-Exploration Policy Learning:OEPL)。包括的な実験により、RoboStereoは最先端の生成品質を達成し、私たちの統一フレームワークは微細な操作タスクにおいて平均相対改善率が97%を超えることを示します。