SpaCeFormer：高速・プロポーザル不要のオープンボキャブラリー3Dインスタンスセグメンテーション

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、ロボティクスやAR/VR向けのオープンボキャブラリー3Dインスタンスセグメンテーションを対象とした、提案領域（プロポーザル）不要の手法SpaCeFormerを提案している。
SpaCeFormerは1シーンあたり0.14秒で動作し、数百秒かかる従来の多段階2D+3Dパイプラインの遅延ボトルネックを解消することを狙っている。
また、SpaCeFormer-3Mという大規模なオープンボキャブラリー3Dインスタンスセグメンテーション用データセットを公開しており、7.4Kシーン・604Kインスタンスに対して3.0Mのマルチビュー整合キャプションを含む。
手法は、空間ウィンドウ注意とMorton曲線の直列化により3D特徴を空間的に整合させ、RoPE強化デコーダで学習済みクエリから外部の領域提案なしでインスタンスマスクを直接予測する。
実験では有望な成果が示され、ScanNet200で提案領域不要手法として前回最高から2.8倍となるゼロショットmAP 11.1を達成し、ScanNet++とReplicaではそれぞれ22.9/24.1 mAPを記録してマルチビュー2D入力を用いる先行手法も上回っている。

Abstract

Open-vocabulary 3D instance segmentation is a core capability for robotics and AR/VR, but prior methods trade one bottleneck for another: multi-stage 2D+3D pipelines aggregate foundation-model outputs at hundreds of seconds per scene, while pseudo-labeled end-to-end approaches rely on fragmented masks and external region proposals. We present SpaCeFormer, a proposal-free space-curve transformer that runs at 0.14 seconds per scene, 2-3 orders of magnitude faster than multi-stage 2D+3D pipelines. We pair it with SpaCeFormer-3M, the largest open-vocabulary 3D instance segmentation dataset (3.0M multi-view-consistent captions over 604K instances from 7.4K scenes) built through multi-view mask clustering and multi-view VLM captioning; it reaches 21x higher mask recall than prior single-view pipelines (54.3% vs 2.5% at IoU > 0.5). SpaCeFormer combines spatial window attention with Morton-curve serialization for spatially coherent features, and uses a RoPE-enhanced decoder to predict instance masks directly from learned queries without external proposals. On ScanNet200 we achieve 11.1 zero-shot mAP, a 2.8x improvement over the prior best proposal-free method; on ScanNet++ and Replica, we reach 22.9 and 24.1 mAP, surpassing all prior methods including those using multi-view 2D inputs.

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

大手テック企業がAI投資と統合を加速する一方、規制当局と企業は安全性と責任ある導入に注力

Dev.to

格子ベースのプランに条件付けられた未知環境における軌跡予測

Dev.to

Google Maps×生成AI──ストリートビューで“未来の風景”が見られる機能など追加、衛星画像の分析も大幅に短縮

Innovatopia

オーストリアを高みへ：Google、アルプス初のデータセンターに投資

Google Blog

SpaCeFormer：高速・プロポーザル不要のオープンボキャブラリー3Dインスタンスセグメンテーション

要点

Abstract

関連記事

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

大手テック企業がAI投資と統合を加速する一方、規制当局と企業は安全性と責任ある導入に注力

格子ベースのプランに条件付けられた未知環境における軌跡予測

Google Maps×生成AI──ストリートビューで“未来の風景”が見られる機能など追加、衛星画像の分析も大幅に短縮

オーストリアを高みへ：Google、アルプス初のデータセンターに投資

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer