要旨: 本研究では、視覚観測のみを用い、過不足のある(アンダースペシファイドな)自然言語の目標から3D環境における長期的計画(ロングホライゾン・プランニング)を扱います。特に、複数ステップの3Dボックスの組み替え(再配置)タスクに焦点を当てます。既存手法は一般に、状態と目標の関係的なグラウンディングが脆いことを特徴とするシンボリック・プランナに依存するか、あるいは2Dのビジョン・ランゲージモデル(VLM)から直接アクション列を生成します。しかし、いずれのアプローチも、多数の対象物に対する推論、豊かな3D幾何、暗黙的な意味的制約の扱いが困難です。近年の3D VLMの進展は、自然言語の参照対象を3Dセグメンテーションマスクへ強くグラウンディングできることを示しており、より一般的な計画能力の可能性を示唆しています。私たちは既存の3Dグラウンディングモデルを拡張し、Reactive Action Mask Planner(RAMP-3D)を提案します。RAMP-3Dは、長期的計画を、対となる3Dマスクの逐次的なリアクティブ(反応型)予測として定式化します。具体的には、「どの対象物か」を示す“which-object”マスクと、「どこに置くか」を指定する“which-target-region”マスクです。得られたシステムは、RGB-Dの観測と自然言語のタスク指定を処理し、3Dボックスの組み替えに対して、多段のピック&プレース行動を反応的に生成します。倉庫スタイルの環境において、1〜30個のボックスと多様な自然言語制約を用い、11種類のタスクバリアントにわたって実験を行いました。RAMP-3Dは長期的な組み替えタスクで79.5%の成功率を達成し、2D VLMベースラインを大きく上回ります。これにより、マスクベースの反応型ポリシーが、長期的計画のためのシンボリックなパイプラインに対する有望な代替となることを示します。
長期ホライゾンのボックス並べ替えのために、視覚と言語を3Dマスクへ接地する
arXiv cs.RO / 2026/3/26
💬 オピニオン
要点
- 本論文は、自然言語の目標が十分に特定されていない状況で、視覚入力(RGB-D)のみを用いて駆動される長期ホライゾンの3Dボックス並べ替えに取り組む
- 多数の物体と複雑な形状を扱いながら、多段階の計画を目標とする