IGLOSS: Lidarのオープン語彙意味セグメンテーションのための画像生成

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

IGLOSSは、3D自動車用LiDAR点群に特化した、新しいゼロショットのオープン語彙意味セグメンテーション手法を提案する。
CLIPのようなVLMに頼る代わりに、画像とテキストのモダリティギャップに苦しむ点を回避するため、テキストからプロトタイプ画像を生成してモダリティ間の橋渡しを行う。
システムは、2Dの視覚基盤モデルから蒸留した3Dネットワークを用い、生成されたプロトタイプから抽出した2D特徴と3D点特徴を照合することでラベル付けする。
本論文は、nuScenesおよびSemanticKITTIデータセットにおけるOVSSで最先端の性能を報告している。
著者らは、GitHubリポジトリを通じてコード、事前学習済みモデル、生成画像を公開している。

Abstract

本論文では、3D自動車LiDARデータのゼロショット・オープンボキャブラリ・セマンティックセグメンテーション（OVSS）のための新しい手法を提案する。CLIPのようなビジョン・ランゲージ・モデル（VLM）に基づくアプローチに本質的に備わっている、認識された画像-テキストのモダリティギャップを回避するために、本手法は代わりにテキストから画像生成を行い、プロトタイプ画像を作成することに依存する。次に、2Dビジョン基盤モデル（VFM）から蒸留した3Dネットワークを用いて、これらのプロトタイプの2D画像特徴に対して3D点特徴を対応付けることで、点群にラベル付けを行う。本手法はnuScenesおよびSemanticKITTIにおけるOVSSの最先端である。コード、事前学習済みモデル、生成画像はhttps://github.com/valeoai/IGLOSS で利用可能である。