CorridorVLA:スパースアンカーによる生成アクションヘッドへの明示的な空間制約

arXiv cs.RO / 2026/4/24

📰 ニュースModels & Research

要点

  • この論文では、Vision-Language-Action(VLA)に対して、増分となる物理的変化としてスパースな空間アンカーを予測し、空間誘導を明示的に組み込む手法CorridorVLAを提案している。
  • アンカーに基づいて「回廊(許容領域)」を定義し、その内部から外れた空間的な推移を持つアクショントラジェクトリには是正の勾配を与える学習目的を用いる。
  • 接触のばらつきや実行時ノイズによる小さな逸脱は許容しつつ、物理的に妥当な空間変化への整合を保つ設計になっている。
  • LIBERO-Plusベンチマークでは、SmolVLAおよびGR00Tの両方で一貫した改善が示され、成功率はベースラインに対して3.4%〜12.4%向上し、GR00T-Corrは83.21%を達成している。
  • 得られた結果は、行動に整合した解釈可能な物理制約が、視覚や潜在表現に暗黙に埋め込まれている空間情報を補完し得ることを示している。

要旨: Vision--Language--Action (VLA) モデルは、多くの場合、マルチモーダル入力と連続制御を結びつけるために中間表現を用いますが、空間的ガイダンスはしばしば潜在特徴を通じて暗黙に注入されています。そこで我々は CorridorVLA を提案します。これは、例えば Delta-positions のような、漸進的な物理的変化として疎な空間アンカーを予測し、それらを用いて行動生成の学習目的における明示的な許容領域を課します。このアンカーは回廊(コリドー)を定義し、フローマッチング(flow-matching)型の行動ヘッドを導きます。回廊の外に入ってしまうような、暗に示された空間的な進展をもつ軌道は是正の勾配を受ける一方、接触時および実行ノイズによる小さな逸脱は許容されます。より難しい LIBERO-Plus ベンチマークにおいて、CorridorVLA は SmolVLA と GR00T の両方で一貫した向上を示し、対応するベースラインに対して成功率を 3.4%--12.4% 改善します。特に、我々の GR00T-Corr 変種は成功率 83.21% を達成します。これらの結果は、行動整合的な物理的手がかりが、視覚や潜在表現に符号化された空間ガイダンスを補完しつつ、生成型行動ポリシーに対して直接的で解釈可能な制約を提供しうることを示しています。コードは https://github.com/corridorVLA で公開されています。