広告

GeoGuide: オープンボキャブラリー3D意味セグメンテーションのための階層的幾何学ガイダンス

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • GeoGuideは、学習時に見たことのないカテゴリにも対応するオープンボキャブラリー3D意味セグメンテーションで、従来の2D表現への蒸留中心の手法が抱える幾何学習の制約や2D誤差の継承を改善することを目的とした新しい枠組みです。
  • 不確実性推定つきSuperpoint蒸留により、幾何と意味の特徴を不確実性推定を伴って統合し、superpoint内で2D特徴を状況に応じて重み付けすることでノイズを抑えつつ弁別情報を保持します。
  • インスタンスレベルのマスク復元では、幾何プリオリを用いてインスタンスごとのマスクを復元し、インスタンス内部の意味的一貫性を高めます。
  • インスタンス間関係の整合性では、幾何・意味の類似度行列を整合させることで、同一カテゴリの物体間の整合性を視点による意味のドリフトを抑えながら校正します。
  • ScanNet v2、Matterport3D、nuScenesにおける広範な実験で、GeoGuideが既存手法より高い性能を示したと報告されています。

Abstract

オープンボキャブラリ3Dセマンティックセグメンテーションは、学習セットを超える任意のカテゴリを対象にセグメントすることを目的とする。既存手法は主に、2Dオープンボキャブラリモデルから知識を蒸留することに依存している。しかし、3D特徴を2Dの表現空間へ整合させることは、本来的な3D幾何学的学習を制限し、さらに2D予測由来の誤りを引き継いでしまう。これらの制限に対処するために、本論文ではGeoGuideという新しい枠組みを提案し、事前学習済みの3Dモデルを活用して、オープンボキャブラリ3Dセグメンテーションのための階層的な幾何学―意味整合性を統合する。具体的には、幾何学的特徴と意味的特徴を融合し、点ごとの不確かさを推定するための不確かさベースのスーパーポイント蒸留(Uncertainty-based Superpoint Distillation)モジュールを導入する。これにより、スーパーポイント内で2D特徴を適応的に重み付けし、識別に有用な情報を保持しつつノイズを抑制することで、局所的な意味整合性を高める。さらに、インスタンスレベルのマスク再構成(Instance-level Mask Reconstruction)モジュールでは、幾何学的事前知識を活用して、完全なインスタンスマスクを再構成することでインスタンス内の意味整合性を強制する。加えて、インターインスタンス関係整合性(Inter-Instance Relation Consistency)モジュールは、幾何学的類似度行列と意味的類似度行列を整合させ、同一カテゴリの物体に対するクロスインスタンス整合性を較正することで、視点に起因する意味のドリフトを緩和する。ScanNet v2、Matterport3D、nuScenesに対する大規模な実験の結果、GeoGuideは優れた性能を示す。

広告