統一的な3Dシーン理解のための、対照的な言語色付け点地図事前学習

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、CLIPのようなコントラスト学習の発想を3Dに拡張し、多視点のカラード点群表現から統一的な3Dシーン理解用表現を学習する手法「UniScene3D」を提案している。
  • transformerベースのエンコーダで、画像の見え(appearance)と幾何(geometry)を同時にモデリングすることで、マルチモーダルなシーン表現の獲得を狙っている。
  • 学習を安定化・頑健化するために、クロスビューの幾何アラインメントと、意味(セマンティクス)整合性を根拠付きで保つgrounded view alignmentといった新しい整合性制約を導入している。
  • viewpoint grounding、シーン検索、シーンタイプ分類、3D VQAなど幅広い評価で、低ショットとタスク別微調整の双方において最先端性能を示したと報告している。

Abstract

Contrastive Language Image Pretraining(CLIP)と整合させることで3Dエンコーダを事前学習することは、3Dシーン理解のための汎用的な表現を学習する有望な方向性として注目を集めている。本論文では、UniScene3Dを提案する。UniScene3Dはトランスフォーマーベースのエンコーダであり、複数ビューのカラー付きpointmapから統一的なシーン表現を学習し、画像の外観と幾何を共同でモデル化する。カラー付きpointmap表現学習を堅牢にするために、ビュー間の幾何学的整合を強制する新しいクロスビュー幾何アライメントと、意味的整合を担保するためのグラウンデッド・ビュー・アライメントを導入する。視点グラウンディング、シーン検索、シーン種別分類、3D VQAに対する、低ショットおよびタスク固有の微調整に関する大規模な評価により、最先端の性能を示す。これらの結果は、統一的な3Dシーン理解に対して本アプローチが有効であることを裏付ける。 https://yebulabula.github.io/UniScene3D/