SpaCeFormer:高速・プロポーザル不要のオープンボキャブラリー3Dインスタンスセグメンテーション

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、ロボティクスやAR/VR向けのオープンボキャブラリー3Dインスタンスセグメンテーションを対象とした、提案領域(プロポーザル)不要の手法SpaCeFormerを提案している。
  • SpaCeFormerは1シーンあたり0.14秒で動作し、数百秒かかる従来の多段階2D+3Dパイプラインの遅延ボトルネックを解消することを狙っている。
  • また、SpaCeFormer-3Mという大規模なオープンボキャブラリー3Dインスタンスセグメンテーション用データセットを公開しており、7.4Kシーン・604Kインスタンスに対して3.0Mのマルチビュー整合キャプションを含む。
  • 手法は、空間ウィンドウ注意とMorton曲線の直列化により3D特徴を空間的に整合させ、RoPE強化デコーダで学習済みクエリから外部の領域提案なしでインスタンスマスクを直接予測する。
  • 実験では有望な成果が示され、ScanNet200で提案領域不要手法として前回最高から2.8倍となるゼロショットmAP 11.1を達成し、ScanNet++とReplicaではそれぞれ22.9/24.1 mAPを記録してマルチビュー2D入力を用いる先行手法も上回っている。

Abstract

Open-vocabulary 3D instance segmentation is a core capability for robotics and AR/VR, but prior methods trade one bottleneck for another: multi-stage 2D+3D pipelines aggregate foundation-model outputs at hundreds of seconds per scene, while pseudo-labeled end-to-end approaches rely on fragmented masks and external region proposals. We present SpaCeFormer, a proposal-free space-curve transformer that runs at 0.14 seconds per scene, 2-3 orders of magnitude faster than multi-stage 2D+3D pipelines. We pair it with SpaCeFormer-3M, the largest open-vocabulary 3D instance segmentation dataset (3.0M multi-view-consistent captions over 604K instances from 7.4K scenes) built through multi-view mask clustering and multi-view VLM captioning; it reaches 21x higher mask recall than prior single-view pipelines (54.3% vs 2.5% at IoU > 0.5). SpaCeFormer combines spatial window attention with Morton-curve serialization for spatially coherent features, and uses a RoPE-enhanced decoder to predict instance masks directly from learned queries without external proposals. On ScanNet200 we achieve 11.1 zero-shot mAP, a 2.8x improvement over the prior best proposal-free method; on ScanNet++ and Replica, we reach 22.9 and 24.1 mAP, surpassing all prior methods including those using multi-view 2D inputs.