Contrastive Language-Colored Pointmap Pretraining for Unified 3D Scene Understanding

arXiv cs.LG / 4/6/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、CLIPのようなコントラスト学習の発想を3Dに拡張し、多視点のカラード点群表現から統一的な3Dシーン理解用表現を学習する手法「UniScene3D」を提案している。
  • transformerベースのエンコーダで、画像の見え(appearance)と幾何(geometry)を同時にモデリングすることで、マルチモーダルなシーン表現の獲得を狙っている。
  • 学習を安定化・頑健化するために、クロスビューの幾何アラインメントと、意味(セマンティクス)整合性を根拠付きで保つgrounded view alignmentといった新しい整合性制約を導入している。
  • viewpoint grounding、シーン検索、シーンタイプ分類、3D VQAなど幅広い評価で、低ショットとタスク別微調整の双方において最先端性能を示したと報告している。

Abstract

Pretraining 3D encoders by aligning with Contrastive Language Image Pretraining (CLIP) has emerged as a promising direction to learn generalizable representations for 3D scene understanding. In this paper, we propose UniScene3D, a transformer-based encoder that learns unified scene representations from multi-view colored pointmaps, jointly modeling image appearance and geometry. For robust colored pointmap representation learning, we introduce novel cross-view geometric alignment and grounded view alignment to enforce cross-view geometry and semantic consistency. Extensive low-shot and task-specific fine-tuning evaluations on viewpoint grounding, scene retrieval, scene type classification, and 3D VQA demonstrate our state-of-the-art performance. These results highlight the effectiveness of our approach for unified 3D scene understanding. https://yebulabula.github.io/UniScene3D/