SpaCeFormer:高速・プロポーザル不要のオープンボキャブラリー3Dインスタンスセグメンテーション
arXiv cs.CV / 2026/4/23
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、ロボティクスやAR/VR向けのオープンボキャブラリー3Dインスタンスセグメンテーションを対象とした、提案領域(プロポーザル)不要の手法SpaCeFormerを提案している。
- SpaCeFormerは1シーンあたり0.14秒で動作し、数百秒かかる従来の多段階2D+3Dパイプラインの遅延ボトルネックを解消することを狙っている。
- また、SpaCeFormer-3Mという大規模なオープンボキャブラリー3Dインスタンスセグメンテーション用データセットを公開しており、7.4Kシーン・604Kインスタンスに対して3.0Mのマルチビュー整合キャプションを含む。
- 手法は、空間ウィンドウ注意とMorton曲線の直列化により3D特徴を空間的に整合させ、RoPE強化デコーダで学習済みクエリから外部の領域提案なしでインスタンスマスクを直接予測する。
- 実験では有望な成果が示され、ScanNet200で提案領域不要手法として前回最高から2.8倍となるゼロショットmAP 11.1を達成し、ScanNet++とReplicaではそれぞれ22.9/24.1 mAPを記録してマルチビュー2D入力を用いる先行手法も上回っている。

