Boxer: オープンワールド2Dバウンディングボックスの3Dへの頑健なリフティング

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、TransformerベースのアルゴリズムであるBoxerを提案し、ポーズ推定された画像と任意の深度(疎な点群または高密度深度)を用いて、2Dのオープンボキャブラリ検出を静的でメートル単位の3Dバウンディングボックスへリフティングする。
  • BoxerNetがコアとなるリフティングモジュールであり、2Dバウンディングボックス提案を入力として3Dボックスを生成し、その後、マルチビュー融合と幾何学的フィルタリングによって洗練することで、グローバルに整合した重複排除済みの3D結果を得る。
  • この手法では既存の2Dオープンボキャブラリ検出器(DETiC、OWLv2、SAM3など)を活用し、主モデルは3Dリフティングに注力することで、高コストな3Dバウンディングボックス注釈への依存を低減することを目指す。
  • 本手法はCuTR型の定式化を拡張し、不確実性(アレアトリック不確実性)を追加して回帰の頑健性を高め、中央値深度パッチエンコーディングにより疎深度入力をサポートする。学習では、1.2M件超の一意な3Dバウンディングボックスを用いる。
  • 報告された結果では、先行ベースラインに対して大幅な改善が示されている。具体的には、密な深度がないエゴセントリック設定で大きく向上し、密な深度が利用可能な場合のCA-1Mでも強い性能を示す。

概要: 宇宙空間における物体の検出と局在化は、基本的なコンピュータビジョン問題である。2D物体検出を解決するために大きな進展がなされてきた一方で、3D物体局在化は、特にオープンワールドのカテゴリにおいて、はるかに未探索であり、未だ解決されていない。こうした研究課題に対処するため、我々はBoxerを提案する。Boxerは、2Dのオープン語彙物体検出、提示された画像、そして任意で深度を用いて、静的な3D境界ボックス(3DBB)を推定するアルゴリズムであり、深度は疎な点群として、または高密度な深度として表現できる。中心となるのはBoxerNetである。BoxerNetは、変換器(Transformer)ベースのネットワークで、2D境界ボックス(2DBB)提案を3Dへ持ち上げ(lift)た後、マルチビュー融合と幾何学的フィルタリングを行うことで、メートル法のワールド空間においてグローバルに一貫した重複排除済みの3DBBを生成する。Boxerは、既存の2DBB検出アルゴリズム(例: DETIC、OWLv2、SAM3)の力を活用して、2D上で物体を局在化する。これにより、主要なBoxerNetモデルは、検出ではなく3Dへの持ち上げ(lifting)に集中でき、最終的に、高コストな注釈付き3DBB学習データへの要求を低減できる。CuTRの定式化を拡張し、頑健な回帰のためのアレアトリック(aleatoric)不確実性を組み込み、疎な深度入力を支えるための中央値深度パッチ(median depth patch)エンコーディングを導入し、1,200,000超のユニークな3DBBによる大規模学習を行う。BoxerNetは、オープンワールド3DBB持ち上げにおいて最先端のベースラインを上回る。具体的には、密な深度がないエゴセントリック設定でCuTR(0.532 vs. 0.010 mAP)に対して優れ、密な深度が利用可能なCA-1Mでは(0.412 vs. 0.250 mAP)である。

Boxer: オープンワールド2Dバウンディングボックスの3Dへの頑健なリフティング | AI Navigate