AnySlot: ゼロショットのスロット単位配置のための、目標条件付き視覚言語行動ポリシー

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • AnySlotは、言語の対応付けからロボット制御までの間に明示的な空間ビジュアル目標を挿入することで、ゼロショットのスロット単位配置を改善する、目標条件付きの視覚言語行動フレームワークである。
  • 本手法は、言語指示をシーン・マーカーの視覚目標へ変換し、その後、目標条件付きVLAポリシーを用いることで、より信頼性の高い意味的スロット選択と空間的ロバスト性を実現する。
  • 本論文は、適切な評価データが存在しないことに対処するため、スロット単位配置に焦点を当てた構造化された空間推論を対象とする9つのタスクカテゴリからなるシミュレーションベンチマークSlotBenchを導入する。
  • 実験では、AnySlotが、フラットなVLAベースラインや、従来のモジュール型対応付けアプローチを、サブセンチメートルの精度が要求される配置タスクにおいて上回ることが報告されている。
  • 全体として、本研究は、高レベルのスロット選択と低レベルの実行を階層的に切り離すことで、ロボットの操作指示における構成(コンポジショナル)複雑性を低減することを提案している。

Abstract

Vision-Language-Action(VLA)ポリシーは、汎用ロボットマニピュレーションのための多用途なパラダイムとして登場してきました。しかし、合成的な言語指示のもとで物体を正確に配置することは、現代のモノリシックVLAポリシーにとって依然として大きな課題です。スロットレベルのタスクでは、信頼できるスロットのグラウンディングと、サブセンチメートル級の実行精度の両方が必要になります。そこで本研究では、AnySlotというフレームワークを提案します。これは、言語のグラウンディングと制御の間に、明示的な空間ビジュアルゴールを中間表現として導入することで、合成の複雑さを低減します。AnySlotは、シーンマーカーを生成することで言語を明示的な視覚ゴールへと変換し、その後、ゴール条件付きのVLAポリシーでこのゴールを実行します。この階層的設計により、高レベルのスロット選択から低レベルの実行を効果的に切り離し、意味的な正確さと空間的な頑健性の両方を保証します。さらに、こうした精度を要求するタスクに対する既存ベンチマークが欠けていることを踏まえ、本研究では、スロットレベル配置における構造化された空間推論を評価するために調整された9つのタスクカテゴリを備えた包括的なシミュレーションベンチマークであるSlotBenchを導入します。大規模な実験の結果、AnySlotは、フラットなVLAベースラインおよび従来のモジュール型グラウンディング手法に比べて、ゼロショットのスロットレベル配置において大幅に優れた性能を示します。