Abstract
屋内環境には、屋外でGPSが提供するような空間インテリジェンスの基盤が欠けています。応急対応者が見慣れない建物に到着する際、通常、警備・安全設備の機械可読な地図は存在しません。公共安全に向けた3Dセマンティックセグメンテーションに関する先行研究では、2つの障壁が特定されました。すなわち、(学習用の)ラベル付き屋内訓練データの不足と、ネイティブな点群(ポイントクラウド)手法による小さな安全に直結する特徴の認識の不良です。本論文では、INSIGHTと呼ぶ、ゼロ・ターゲット・ドメイン注釈を可能にするパイプラインを提示します。この手法は、登録済みのRGB-Dデータを介して、2D画像理解を3Dの計量空間へ投影します。2つの交換可能なビジョン・スタックは共通の3Dバックエンドを共有します。1つはテキスト・プロンプトによるセグメンテーションのためのSAM3基盤モデル・スタックであり、もう1つは従来型CVスタック(オープンセット検出、VQA、OCR)です。後者の中間出力は独立して検査可能です。このパイプラインは、Stanford 2D-3D-Sの全7サブエリア(70{,}496枚の画像)で評価したところ、Pointceptスキーマに対応したラベル付き点群と、ISO~19164に準拠したシーン・グラフを生成し、圧縮率は{\sim}10^{4}{\times}です。役割でフィルタされたペイロードは、FirstNetのBand~14で1 Mbpsにて{<}15\,sで送信されます。7つの共有クラスに対する1点ごとのラベル付け精度、安全に直結する15クラスについての、公的な3Dベンチマークには存在しないクラスに対する検出感度、さらにコードで上限制約された、配備可能性を見積もる推定値、そしてパイプライン間の補完性を報告します。これらにより、2Dから3Dへのセマンティック転送がラベル付きデータのボトルネックを解消し、シーン・グラフが現場配備に十分なコンパクトな建物インテリジェンスを提供することを示します。