SpatialPoint:身体性を考慮した空間認識に向けた空間対応型ポイント予測
arXiv cs.AI / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、「身体性を考慮したローカライゼーション(embodied localization)」を定義し、3D空間で行動する身体性エージェントが、視覚観測に加えて言語指示を受けて、実行可能な3Dポイントを予測することを扱います。
- タスクのターゲットには2種類があると区別します。物理的相互作用のための、触れられる(表面に基づく)3Dポイントと、配置・ナビゲーション・幾何学的/方向的制約のための空中(自由空間)3Dポイントです。
- SpatialPointは、構造化された深度をVLMに明示的に統合する、空間対応型の視覚言語フレームワークとして提案されます。また、RGBからの暗黙的な幾何学的再構成に頼るのではなく、カメラ座標系での3D座標を出力します。
- 著者らは、学習と評価のために、触れられるポイントと空中ポイントの双方をカバーするQAペアを含む、大規模な2.6MサンプルのRGB-Dデータセットを構築します。
- 把持、物体の配置、モバイルナビゲーションに関する実験および実ロボットへの展開では、VLMに深度を取り入れることが身体性を考慮したローカライゼーション性能を大きく改善することが示されます。



