INSIGHT:幾何学的セマンティック階層転送による屋内シーンインテリジェンスの公共安全向け手法

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、登録済みRGB-Dデータを用いて2Dの理解を3Dのメートル空間へ転送することで、公共安全に向けた屋内シーンに機械可読な「空間インテリジェンス」を提供するINSIGHTを提案する。
  • これまでの公共安全向け3Dセマンティックセグメンテーション研究が直面していた課題である、ラベル付き屋内データの不足と、小さな安全上重要な特徴の認識が点群ベース手法で弱い点を解決することを狙っている。
  • INSIGHTは2D側のビジョンスタックを差し替え可能にし、SAM3によるテキストプロンプト付きセグメンテーション(基盤モデル)と、オープンセット検出・VQA・OCRといった従来型CVコンポーネントのスタックの2通りを共通の3Dバックエンドで共有して動作させる。
  • Stanford 2D-3D-Sの全7サブエリアで評価し、Pointceptスキーマに互換なラベル付き点群と、ISO 19164準拠のシーングラフを生成でき、圧縮率は約10,000倍とされるため現場投入に適している。
  • 共通クラスでの点ごとのラベリング精度、安全上重要だが公開3Dベンチマークに含まれない15クラスの検出感度、そして2つのパイプライン間の補完性が報告される。

Abstract

屋内環境には、屋外でGPSが提供するような空間インテリジェンスの基盤が欠けています。応急対応者が見慣れない建物に到着する際、通常、警備・安全設備の機械可読な地図は存在しません。公共安全に向けた3Dセマンティックセグメンテーションに関する先行研究では、2つの障壁が特定されました。すなわち、(学習用の)ラベル付き屋内訓練データの不足と、ネイティブな点群(ポイントクラウド)手法による小さな安全に直結する特徴の認識の不良です。本論文では、INSIGHTと呼ぶ、ゼロ・ターゲット・ドメイン注釈を可能にするパイプラインを提示します。この手法は、登録済みのRGB-Dデータを介して、2D画像理解を3Dの計量空間へ投影します。2つの交換可能なビジョン・スタックは共通の3Dバックエンドを共有します。1つはテキスト・プロンプトによるセグメンテーションのためのSAM3基盤モデル・スタックであり、もう1つは従来型CVスタック(オープンセット検出、VQA、OCR)です。後者の中間出力は独立して検査可能です。このパイプラインは、Stanford 2D-3D-Sの全7サブエリア(70{,}496枚の画像)で評価したところ、Pointceptスキーマに対応したラベル付き点群と、ISO~19164に準拠したシーン・グラフを生成し、圧縮率は{\sim}10^{4}{\times}です。役割でフィルタされたペイロードは、FirstNetのBand~14で1 Mbpsにて{<}15\,sで送信されます。7つの共有クラスに対する1点ごとのラベル付け精度、安全に直結する15クラスについての、公的な3Dベンチマークには存在しないクラスに対する検出感度、さらにコードで上限制約された、配備可能性を見積もる推定値、そしてパイプライン間の補完性を報告します。これらにより、2Dから3Dへのセマンティック転送がラベル付きデータのボトルネックを解消し、シーン・グラフが現場配備に十分なコンパクトな建物インテリジェンスを提供することを示します。