WildDet3D:野外におけるプロンプト可能な3D検出のスケーリング
arXiv cs.CV / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、単眼3D物体検出のための統一されたジオメトリ認識型アーキテクチャであるWildDet3Dを提案し、複数のプロンプト種別(テキスト、ポイント、ボックス)をサポートするとともに、推論時に補助的な深度信号を取り込めるようにしている。
- 先行研究の抱えるオープンワールドにおける重要な制約に対処し、単一のプロンプト方式に限定されるのではなく、カテゴリをまたいだプロンプト可能な検出を可能にする。
- 著者らはさらに、2Dアノテーションから導出した候補3Dボックスを用い、人手による検証でフィルタリングして構築した、1M枚超の画像を含み、13.5Kカテゴリにまたがるオープンな3D検出データセット「WildDet3D-Data」を公開している。
- WildDet3Dは、複数のベンチマークで新たな最先端(SOTA)結果を達成したと報告されており、たとえばWildDet3D-Benchにおけるオープンワールドのテキスト+ボックス性能(22.6/24.8 AP3D)や、Omni3Dにおける性能(34.2/36.4 AP3D)が挙げられる。
- 推論時に深度キューを追加すると大きな改善が得られ、評価した設定において平均で+20.7 APの向上があり、Argoverse 2およびScanNetでは強力なゼロショットスコアも示している。

