STARRY:ロボティック・マニピュレーションのための空間-時間・アクション中心の世界モデリング

arXiv cs.RO / 2026/4/30

📰 ニュースModels & Research

要点

  • 本論文は、ロボットによるマニピュレーションのために行動に関連する空間-時間相互作用をより適切に捉える、世界モデル強化型のアクション生成方策STARRYを提案します。
  • STARRYは、将来の空間-時間潜在表現とアクション列を共同でデノイズし、空間-時間予測とアクション生成を直接結び付けます。
  • 予測された深度とエンドエフェクタ形状を、トークンに整合した重みへ変換するGeometry-Aware Selective Attention Modulationを導入し、選択的なアクション注意を制御します。
  • RoboTwin 2.0での実験では、CleanおよびRandomized設定で平均成功率93.82%/93.30%、さらに実環境では\(\pi_{0.5}\)に対して成功率を42.5%から70.8%へ改善するなど、顕著な成果が示されます。
  • 以上より、アクション中心の空間-時間世界モデリングが、精密な空間-時間推論を要するロボット動作の性能を大きく高め得ることが示唆されます。

Abstract

ロボットによる操作には、将来の空間・時間的相互作用について推論することが決定的に重要である。しかし、既存のVLAポリシーおよびワールドモデル強化ポリシーは、行動に関連する空間・時間的相互作用の構造を十分にモデル化していない。そこで我々は、空間・時間的予測を行動生成と整合させるワールドモデル強化型行動生成ポリシーSTARRYを提案する。STARRYは、将来の空間・時間的潜在表現と行動系列を同時にデノイズし、さらに、予測された深度とエンドエフェクタ幾何をトークン整合した重みに変換して、選択的な行動アテンション変調を行うための、ジオメトリ対応型セレクティブ・アテンション変調(Geometry-Aware Selective Attention Modulation)を導入する。RoboTwin 2.0において、STARRYはCleanおよびRandomized設定のもとでそれぞれ平均成功率93.82% / 93.30%を達成する。実環境での実験ではさらに、\pi_{0.5}に対して平均成功率が42.5%から70.8%へ向上し、空間・時間的に要求の高いロボット行動生成における、行動中心の空間・時間的ワールドモデリングの有効性を示している。