SpaceDex：階層化された作業環境における汎用的な器用な把持

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

SpaceDexは、段階的な作業環境における高自由度の器用な把持の難しさに対処し、従来あまり扱われない遮蔽・狭い隙間・高さ依存の制約を明示的に考慮します。
システムは階層型のアプローチで、Vision-Language Model（VLM）プランナーがユーザー意図を推定し、複数カメラ視点で空間関係を推論したうえで、ゼロショットのセグメンテーションとマスク追跡のためのバウンディングボックスを生成します。
制御面では、腕と手のFeature Separation Networkにより、腕の軌道制御と手の把持モード選択を分離し、到達と把持の目的間の特徴干渉を抑えます。
コントローラ全体は、マルチビュー知覚、指先タクタイル（触覚）センシング、少数のリカバリ実演を統合し、部分観測や想定外の接触に対する頑健性を高めます。
現実環境の100試行で、4カテゴリの30+種類の未見物体に対してSpaceDexは63.0%の成功率を達成し、堅牢なテーブルトップ基準（39.0%）を大きく上回りました。

要旨: 高自由度（DoF）の巧緻な手による一般化可能な把持は、階層化された作業空間において依然として困難です。そこでは、遮蔽（occlusion）、狭いクリアランス、そして高さに依存する制約が、開放的な卓上シーンよりも大幅に強いからです。既存の多くの手法は比較的遮蔽の少ない環境で評価されることが多く、空間制約下での腕のナビゲーションと手指の関節運動（articulation）に必要な明確に異なる制御要件を、明示的にモデル化していないのが一般的です。本研究では、制約のある3D環境における巧緻な操作のための階層型フレームワークであるSpaceDexを提案します。高レベルでは、Vision-Language Model（VLM）プランナーがユーザーの意図を解析し、複数のカメラ視点にまたがって遮蔽と高さの関係を推論したうえで、ゼロショットセグメンテーションとマスク追跡のための目標バウンディングボックスを生成します。この段階は、単一視点での目標選択に頼るのではなく、下流の制御に対する構造化された空間的ガイダンスを提供します。低レベルでは、腕のグローバルな軌道制御と、手のための幾何学的に意識した把持モード選択を切り離す（デカップリングする）アーム-ハンド Feature Separation Networkを導入します。これにより、到達（reaching）と把持（grasping）の目的間で特徴が干渉することを抑えます。さらにコントローラは、マルチビュー知覚、指先の触覚センシング、そして少数のリカバリ（回復）デモンストレーションを統合し、部分観測可能性や想定外の接触に対する頑健性を高めます。4カテゴリにわたる30種類以上の未見物体を対象とした100回の実世界試行において、SpaceDexは63.0の成功率を達成し、強力な卓上ベースラインの39.0と比較して大幅に上回りました。これらの結果は、階層的な空間計画とアーム-ハンドの表現のデカップリングを組み合わせることで、空間的に制約された環境における巧緻な把持性能が向上することを示しています。