VLMと部分観測を用いた視点非依存の把持パイプライン

arXiv cs.RO / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、遮蔽によって部分観測や深度推定の信頼性低下が起きる、雑然とした環境で動作するモバイル・脚式マニピュレータ向けに、言語ガイドによるエンドツーエンドの把持パイプラインを提案している。
自然言語コマンドから、RGB上でのオープンボキャブラリ検出とプロンプト可能なインスタンスセグメンテーションにより対象を特定し、RGB-Dから物体中心の点群を抽出して、実機ロボットでの安全な把持実行へと接続する。
障害物による遮蔽で幾何が崩れる問題に対して、背投影による深度補償と2段階の点群補完を行い、幾何的信頼性を高める。
その後、6自由度(6-DoF)の把持候補を生成し、衝突チェックに加えて到達可能性、アプローチの実行可能性、クリアランスといった安全性重視のヒューリスティックで選別する。
四足歩行ロボット（アーム付き）で2つの雑然としたテーブルトップ環境を評価し、視点依存のベースラインに対して全体成功率90%(9/10)を達成、ベースラインは30%(3/10)にとどまることから、部分観測への頑健性が大幅に向上したことを示している。

概要: 乱雑で未構造な環境における頑健な把持は、遮蔽によって部分的な観測につながり、不確実な深度推定を引き起こし、さらに衝突回避が可能で実行可能なアプローチを必要とするため、モバイル脚式マニピュレータにとって依然として困難です。本論文では、オープン語彙のターゲット選択から実機ロボットにおける安全な把持の実行までをつなぐ、言語による把持のエンドツーエンド・パイプラインを提案します。自然言語による指令を与えると、システムはオープン語彙検出とプロンプト可能なインスタンスセグメンテーションを用いてRGB上にターゲットを実体化し（grounding）、RGB-Dから物体中心の点群を抽出し、さらに逆投影による深度補償と二段階の点群補完によって遮蔽下での幾何学的な信頼性を向上させます。次に、6自由度（6-DoF）の把持候補を生成し、衝突フィルタリングを行い、安全志向のヒューリスティックに基づいて、到達可能性、アプローチの実行可能性、クリアランスを考慮した上で、実行可能な把持を選択します。本手法を、腕を備えた四脚ロボットで、2つの乱雑な卓上シナリオにおいて評価し、視点依存のベースラインに対してペア比較の試行を行います。提案手法は、ベースラインの30%（3/10）に対して全体で90%の成功率（9/10）を達成し、乱雑環境における遮蔽と部分的観測に対して大幅に頑健であることを示します。