SpatialPoint：身体性を考慮した空間認識に向けた空間対応型ポイント予測

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、「身体性を考慮したローカライゼーション（embodied localization）」を定義し、3D空間で行動する身体性エージェントが、視覚観測に加えて言語指示を受けて、実行可能な3Dポイントを予測することを扱います。
タスクのターゲットには2種類があると区別します。物理的相互作用のための、触れられる（表面に基づく）3Dポイントと、配置・ナビゲーション・幾何学的／方向的制約のための空中（自由空間）3Dポイントです。
SpatialPointは、構造化された深度をVLMに明示的に統合する、空間対応型の視覚言語フレームワークとして提案されます。また、RGBからの暗黙的な幾何学的再構成に頼るのではなく、カメラ座標系での3D座標を出力します。
著者らは、学習と評価のために、触れられるポイントと空中ポイントの双方をカバーするQAペアを含む、大規模な2.6MサンプルのRGB-Dデータセットを構築します。
把持、物体の配置、モバイルナビゲーションに関する実験および実ロボットへの展開では、VLMに深度を取り入れることが身体性を考慮したローカライゼーション性能を大きく改善することが示されます。

Abstract

身体化された知能には、本質的に3D空間のどこで行動すべきかを判断する能力が必要です。私たちはこの要件を身体化ローカライゼーション（embodied localization）として形式化します――それは、視覚観測と言語指示に条件付けられた、実行可能な3D点を予測する問題です。私たちは身体化ローカライゼーションを、補完的な2種類のターゲットで具現化します。すなわち、触れられる点（touchable points）と、空中点（air points）です。触れられる点は、直接的な物理的相互作用を可能にする、表面に基づく3D点です。一方、空中点は、配置や移動の目標、方向の制約、あるいは幾何学的関係を指定する、自由空間における3D点です。身体化ローカライゼーションは本質的に、身体化された3D空間推論の問題です。しかし、既存のほとんどの視覚・言語システムは主としてRGB入力に依存しているため、ロボティクスでRGB-Dセンサが広く採用されているにもかかわらず、暗黙的な幾何学的再構成に頼らざるを得ず、シーンをまたいだ汎化を制限します。このギャップに対処するために、私たちはSpatialPointを提案します。SpatialPointは、構造化された深度を視覚言語モデル（VLM）に統合するよう慎重に設計された、空間認識対応の視覚・言語フレームワークであり、カメラ座標系の3D座標を生成します。私たちは、触れられる点と空中点の両方をカバーする、QAペアからなる260万サンプル規模のRGB-Dデータセットを構築し、訓練と評価に用います。大規模な実験により、深度をVLMに組み込むことが身体化ローカライゼーションの性能を大幅に向上させることを示します。さらに、SpatialPointを実ロボットで3つの代表的タスクにわたって検証します。具体的には、指定された位置での言語誘導によるロボットアームの把持、目標行き先への対象物の配置、そして目標位置へのモバイルロボットのナビゲーションです。