Abstract
ロボットによる操作には、将来の空間・時間的相互作用について推論することが決定的に重要である。しかし、既存のVLAポリシーおよびワールドモデル強化ポリシーは、行動に関連する空間・時間的相互作用の構造を十分にモデル化していない。そこで我々は、空間・時間的予測を行動生成と整合させるワールドモデル強化型行動生成ポリシーSTARRYを提案する。STARRYは、将来の空間・時間的潜在表現と行動系列を同時にデノイズし、さらに、予測された深度とエンドエフェクタ幾何をトークン整合した重みに変換して、選択的な行動アテンション変調を行うための、ジオメトリ対応型セレクティブ・アテンション変調(Geometry-Aware Selective Attention Modulation)を導入する。RoboTwin 2.0において、STARRYはCleanおよびRandomized設定のもとでそれぞれ平均成功率93.82% / 93.30%を達成する。実環境での実験ではさらに、\pi_{0.5}に対して平均成功率が42.5%から70.8%へ向上し、空間・時間的に要求の高いロボット行動生成における、行動中心の空間・時間的ワールドモデリングの有効性を示している。