AnySlot: ゼロショットのスロット単位配置のための、目標条件付き視覚言語行動ポリシー
arXiv cs.RO / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- AnySlotは、言語の対応付けからロボット制御までの間に明示的な空間ビジュアル目標を挿入することで、ゼロショットのスロット単位配置を改善する、目標条件付きの視覚言語行動フレームワークである。
- 本手法は、言語指示をシーン・マーカーの視覚目標へ変換し、その後、目標条件付きVLAポリシーを用いることで、より信頼性の高い意味的スロット選択と空間的ロバスト性を実現する。
- 本論文は、適切な評価データが存在しないことに対処するため、スロット単位配置に焦点を当てた構造化された空間推論を対象とする9つのタスクカテゴリからなるシミュレーションベンチマークSlotBenchを導入する。
- 実験では、AnySlotが、フラットなVLAベースラインや、従来のモジュール型対応付けアプローチを、サブセンチメートルの精度が要求される配置タスクにおいて上回ることが報告されている。
- 全体として、本研究は、高レベルのスロット選択と低レベルの実行を階層的に切り離すことで、ロボットの操作指示における構成(コンポジショナル)複雑性を低減することを提案している。




