ST-$\pi$: 構造化された時空間VLAによるロボットマニピュレーション

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文では、ロボットマニピュレーションにおける微細な時空間推論を強化することを目的とした新しいVLAモデル「ST-$\pi$」を提案しています。
ST-$\pi$は、時空間VLMで4D観測とタスク指示を潜在空間にエンコードし、LLMにより空間的・時間的なグラウンディングを含む因果順のチャンク単位の行動プロンプト列を生成します。
さらに、時空間アクションエキスパートとして、構造化されたデュアルジェネレータによるガイダンスで空間依存と時間因果を同時にモデリングし、ステップごとの行動パラメータを予測します。
学習や微調整を支えるため、著者らは構造化された時空間注釈を備えた実環境ロボティクスのデータセットを公開し、GitHubリンクでコードも提供しています。
実験結果では、曖昧にしがちな時空間推論を「明示的に構造化して全体計画し、局所制御で精緻化する」アプローチが、従来手法より有効であることが示されています。

Abstract

視覚・言語・行動（VLA）モデルは一般的なロボットタスクで大きな成功を収めている一方、細粒度の時空間操作には依然として課題があります。典型的には、既存の手法は主に時空間知識を視覚表現および行動表現に埋め込み、その後、ステップレベルの行動予測のために直接クロスモーダルな写像を行います。しかし、このような時空間推論は概ね暗黙的であるため、時空間境界を明示したまま複数の連続する振る舞いを扱うことが困難です。本研究では、ロボット操作のための構造化時空間VLAモデルであるST-

\pi

を提案します。我々のモデルは、次の2つの主要な設計に導かれています。1) 時空間VLM。4次元の観測とタスク指示を潜在空間に符号化し、それらをLLMに入力して、サブタスク、空間的グラウンディング、時間的グラウンディングから成る、因果的に順序づけられたチャンクレベルの行動プロンプトの系列を生成します。2) 時空間アクションエキスパート。チャンクレベルの行動プロンプトに条件付けて、空間的依存関係と時間的因果性を同時にモデル化するための、構造化されたデュアルジェネレータによるガイダンスを設計し、ステップレベルの行動パラメータを予測します。この構造化された枠組みの中で、VLMはグローバルな時空間的振る舞いを明示的に計画し、行動エキスパートはさらにローカルな時空間制御を洗練させます。加えて、微調整のための、構造化された時空間アノテーションを備えた実世界のロボットデータセットも提案します。我々のモデルの有効性を示すために、広範な実験を実施しました。コードリンク: https://github.com/chuanhaoma/ST-pi.