オブジェクト中心と幾何学的基盤により実現する、クラッタ耐性の視覚言語行動モデル

arXiv cs.RO / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

既存の視覚言語行動（VLA）モデルは、知覚と制御を単一のパイプラインで結び付けがちで、その結果、言語条件付きの基盤（グラウンディング）が弱まり、実環境の卓上実験では不在の対象に過剰に掴みに行ったり、雑物に気を取られて失敗したりする。
本論文ではOBEYED-VLAを提案し、知覚のグラウンディングと行動推論を切り離して、複数視点入力に対するオブジェクト中心かつ幾何学的に意識したグラウンディングを行った上で学習済みのVLAポリシーに入力する。
OBEYED-VLAは、VLMベースの段階でカメラ間のタスクに関係する物体領域を選択し、さらに幾何学的基盤段階で外観よりも3D構造を重視するようにしている。
その後、クラッタや非ターゲット物体を含まない環境で収集した単一物体デモに対してVLAを微調整し、UR10eの卓上セットアップで、ディストラクタ、対象不在の拒否、背景の見た目変化、未見物体のクラッタ状操作など複数の厳しい条件にわたって頑健性が大きく向上する。
アブレーション結果から、意味的（オブジェクト中心）グラウンディングと幾何学的に意識したグラウンディングの両方が、性能向上に不可欠であることが示される。