MonoSAOD：疎に注釈されたラベルによる単眼3D物体検出

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、3Dアノテーションの高コストにより一部の物体しかラベル付けされない「疎ラベル」環境における単眼3D物体検出の課題を扱っています。
提案手法の1つ目として、疎ラベルを活かすRoad-Aware Patch Augmentation（RAPA）を導入し、物体パッチを道路領域へ合成しつつ3D幾何の整合性を保つことを狙っています。
2つ目として、Prototype-Based Filtering（PBF）により、プロトタイプ類似度と深度不確実性を用いて高品質な疑似ラベルを生成・選別します。
学習では「幾何を壊さない拡張」と「プロトタイプ誘導の疑似ラベル」を組み合わせ、疎な3D教師信号下でもロバストに検出性能を高めることを、実験結果で示しています。
コードが公開されており、研究コミュニティが再現・検証できるよう配慮されています。

概要: 単眼3D物体検出は、密に注釈されたデータセットにおいて目覚ましい性能を達成しています。しかし、3Dアノテーションのコストが高いため、物体のごく一部だけがラベル付けされている場合にはうまく機能しません。このように疎な注釈が与えられる設定は、現実のシナリオでよく見られます。現実の世界では、すべての物体に注釈を付けることが実行不可能であるためです。本研究では、2つの主要なモジュールを備えた、疎注釈単眼3D物体検出のための新しい枠組みを提案します。まず、道路認識に基づくパッチ拡張（Road-Aware Patch Augmentation; RAPA）を提案します。これは、疎な注釈を活用し、3D幾何学的整合性を維持しながら、セグメント化された物体パッチを道路領域へ拡張することで実現します。次に、プロトタイプに基づくフィルタリング（Prototype-Based Filtering; PBF）を提案します。これは、プロトタイプの類似度と深度不確実性により予測をフィルタリングすることで、高品質な擬似ラベルを生成します。学習した2D RoI特徴のプロトタイプをグローバルに保持し、特徴が学習済みプロトタイプと一致していること、かつ深度推定が信頼できることの両方を満たす擬似ラベルを選択します。学習戦略は、幾何学的整合性を保つ拡張と、プロトタイプに導かれる擬似ラベリングを組み合わせることで、疎な監督下でも頑健な検出を達成します。広範な実験により、提案手法の有効性が示されます。ソースコードは https://github.com/VisualAIKHU/MonoSAOD で公開されています。