WildDet3D：野外におけるプロンプト可能な3D検出のスケーリング

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、単眼3D物体検出のための統一されたジオメトリ認識型アーキテクチャであるWildDet3Dを提案し、複数のプロンプト種別（テキスト、ポイント、ボックス）をサポートするとともに、推論時に補助的な深度信号を取り込めるようにしている。
先行研究の抱えるオープンワールドにおける重要な制約に対処し、単一のプロンプト方式に限定されるのではなく、カテゴリをまたいだプロンプト可能な検出を可能にする。
著者らはさらに、2Dアノテーションから導出した候補3Dボックスを用い、人手による検証でフィルタリングして構築した、1M枚超の画像を含み、13.5Kカテゴリにまたがるオープンな3D検出データセット「WildDet3D-Data」を公開している。
WildDet3Dは、複数のベンチマークで新たな最先端（SOTA）結果を達成したと報告されており、たとえばWildDet3D-Benchにおけるオープンワールドのテキスト+ボックス性能（22.6/24.8 AP3D）や、Omni3Dにおける性能（34.2/36.4 AP3D）が挙げられる。
推論時に深度キューを追加すると大きな改善が得られ、評価した設定において平均で+20.7 APの向上があり、Argoverse 2およびScanNetでは強力なゼロショットスコアも示している。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH