Abstract
視覚・言語・行動(VLA)モデルは一般的なロボットタスクで大きな成功を収めている一方、細粒度の時空間操作には依然として課題があります。典型的には、既存の手法は主に時空間知識を視覚表現および行動表現に埋め込み、その後、ステップレベルの行動予測のために直接クロスモーダルな写像を行います。しかし、このような時空間推論は概ね暗黙的であるため、時空間境界を明示したまま複数の連続する振る舞いを扱うことが困難です。本研究では、ロボット操作のための構造化時空間VLAモデルであるST-\piを提案します。我々のモデルは、次の2つの主要な設計に導かれています。1) 時空間VLM。4次元の観測とタスク指示を潜在空間に符号化し、それらをLLMに入力して、サブタスク、空間的グラウンディング、時間的グラウンディングから成る、因果的に順序づけられたチャンクレベルの行動プロンプトの系列を生成します。2) 時空間アクションエキスパート。チャンクレベルの行動プロンプトに条件付けて、空間的依存関係と時間的因果性を同時にモデル化するための、構造化されたデュアルジェネレータによるガイダンスを設計し、ステップレベルの行動パラメータを予測します。この構造化された枠組みの中で、VLMはグローバルな時空間的振る舞いを明示的に計画し、行動エキスパートはさらにローカルな時空間制御を洗練させます。加えて、微調整のための、構造化された時空間アノテーションを備えた実世界のロボットデータセットも提案します。我々のモデルの有効性を示すために、広範な実験を実施しました。コードリンク: https://github.com/chuanhaoma/ST-pi.