Boxer: オープンワールド2Dバウンディングボックスの3Dへの頑健なリフティング

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、TransformerベースのアルゴリズムであるBoxerを提案し、ポーズ推定された画像と任意の深度（疎な点群または高密度深度）を用いて、2Dのオープンボキャブラリ検出を静的でメートル単位の3Dバウンディングボックスへリフティングする。
BoxerNetがコアとなるリフティングモジュールであり、2Dバウンディングボックス提案を入力として3Dボックスを生成し、その後、マルチビュー融合と幾何学的フィルタリングによって洗練することで、グローバルに整合した重複排除済みの3D結果を得る。
この手法では既存の2Dオープンボキャブラリ検出器（DETiC、OWLv2、SAM3など）を活用し、主モデルは3Dリフティングに注力することで、高コストな3Dバウンディングボックス注釈への依存を低減することを目指す。
本手法はCuTR型の定式化を拡張し、不確実性（アレアトリック不確実性）を追加して回帰の頑健性を高め、中央値深度パッチエンコーディングにより疎深度入力をサポートする。学習では、1.2M件超の一意な3Dバウンディングボックスを用いる。
報告された結果では、先行ベースラインに対して大幅な改善が示されている。具体的には、密な深度がないエゴセントリック設定で大きく向上し、密な深度が利用可能な場合のCA-1Mでも強い性能を示す。

概要: 宇宙空間における物体の検出と局在化は、基本的なコンピュータビジョン問題である。2D物体検出を解決するために大きな進展がなされてきた一方で、3D物体局在化は、特にオープンワールドのカテゴリにおいて、はるかに未探索であり、未だ解決されていない。こうした研究課題に対処するため、我々はBoxerを提案する。Boxerは、2Dのオープン語彙物体検出、提示された画像、そして任意で深度を用いて、静的な3D境界ボックス（3DBB）を推定するアルゴリズムであり、深度は疎な点群として、または高密度な深度として表現できる。中心となるのはBoxerNetである。BoxerNetは、変換器（Transformer）ベースのネットワークで、2D境界ボックス（2DBB）提案を3Dへ持ち上げ（lift）た後、マルチビュー融合と幾何学的フィルタリングを行うことで、メートル法のワールド空間においてグローバルに一貫した重複排除済みの3DBBを生成する。Boxerは、既存の2DBB検出アルゴリズム（例: DETIC、OWLv2、SAM3）の力を活用して、2D上で物体を局在化する。これにより、主要なBoxerNetモデルは、検出ではなく3Dへの持ち上げ（lifting）に集中でき、最終的に、高コストな注釈付き3DBB学習データへの要求を低減できる。CuTRの定式化を拡張し、頑健な回帰のためのアレアトリック（aleatoric）不確実性を組み込み、疎な深度入力を支えるための中央値深度パッチ（median depth patch）エンコーディングを導入し、1,200,000超のユニークな3DBBによる大規模学習を行う。BoxerNetは、オープンワールド3DBB持ち上げにおいて最先端のベースラインを上回る。具体的には、密な深度がないエゴセントリック設定でCuTR（0.532 vs. 0.010 mAP）に対して優れ、密な深度が利用可能なCA-1Mでは（0.412 vs. 0.250 mAP）である。

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

Boxer: オープンワールド2Dバウンディングボックスの3Dへの頑健なリフティング

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践 設計者はキュレーターに

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化