CLASP：オープンボキャブラリのデスクトップ物体把持のための閉ループ非同期空間認識

arXiv cs.RO / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

CLASPは、空間的な幻覚や脆弱なオープンループ実行といったVLM駆動のマニピュレーションに関する課題に対処することで、オープンボキャブラリのデスクトップ物体把持を改善することを目的とした、閉ループの非同期空間認識フレームワークとして提案されている。

概要: 卓上の物体をロボットが把持することは、インテリジェントな製造、物流、農業で広く用いられています。視覚言語モデル（VLM）はロボット操作に強い可能性を示しているものの、低レベルな把持への導入には主要な課題があります。すなわち、高品質なマルチモーダル実演の不足、弱い幾何学的な基盤付けによって引き起こされる空間幻覚、そして動的な環境におけるオープンループ実行の脆さです。これらの課題に対処するために、マルチモーダル知覚、論理的推論、状態を反映するフィードバックを統合する新しい非同期クローズド・ループ枠組み「Closed-Loop Asynchronous Spatial Perception（CLASP）」を提案します。まず、階層的知覚モジュールである「Dual-Pathway Hierarchical Perception」を設計し、上位の意味的意図と幾何学的基盤付けを切り離します。この設計は推論モデルの出力と確定的な行動タプルの導出を導き、空間的な錯覚を抑制します。次に、実行前後の状態を比較するための「非同期クローズド・ループ評価器」を実装し、テキストベースの診断フィードバックを提供して、堅牢な誤り訂正ループを確立するとともに、動的環境における従来のオープンループ実行の脆弱性を改善します。最後に、人手によるテレオペレーションなしに、実シーンおよび合成シーンから高品質な空間アノテーションと推論テンプレートを自動生成する、スケーラブルなマルチモーダルデータエンジンを設計します。大規模な実験により、提案手法が既存のベースラインを大きく上回り、全体で87.0%の成功率を達成することを示します。特に、この枠組みは多様な物体に対して顕著な汎化性を示し、sim-to-realのギャップを埋め、幾何学的に困難なカテゴリや雑然とした状況において卓越した頑健性を提供します。