3Dシーン理解のための基盤モデルへ向けて：ポイントクラウドに対するインスタンス認識型自己教師あり学習

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

arXiv論文では、人手によるラベルなしでポイントクラウドから3Dシーン理解を向上させることを目的とした、インスタンス志向の自己教師あり学習フレームワーク「PointINS」を提案している。
現行のSSL手法は主にセマンティクス認識を最適化している一方で、インスタンスの位置特定への転移は弱いと主張し、より一般的な「3D基盤モデル」表現への進展が必要だとしている。
PointINSは直交オフセット分岐を導入し、幾何学に配慮した制約によってインスタンス認識を高めるための2つの正則化戦略—Offset Distribution Regularization（ODR）とSpatial Clustering Regularization（SCR）—を用いる。
5つのデータセットにわたる実験により、屋内インスタンスセグメンテーションで平均+3.5% mAP、屋外パンオプティックセグメンテーションで平均+4.1% PQが得られ、下流タスクへの転移とインスタンスレベルの性能が向上することを示唆している。

Abstract

点群に対する自己教師あり学習（SSL）の近年の進歩は、人手によるアノテーションなしで3Dシーン理解を大幅に向上させてきました。既存の手法は、拡張されたビュー間で特徴の一貫性を強制する、あるいはマスクされたシーンモデリングを行うことで意味的な気づき（セマンティックアウェアネス）を重視しています。しかし、その結果得られる表現は、インスタンスローカライゼーションへの転移が十分ではなく、強い性能を得るにはしばしば全面的なファインチューニングが必要です。インスタンスの気づきは3D知覚における基礎的な要素であるため、このギャップを埋めて、3Dデータ上のすべての下流タスクを支える真の3D基盤モデルへと進むことが重要です。本研究では、幾何学を意識した学習によって点群表現を強化する、インスタンス指向の自己教師ありフレームワークPointINSを提案します。PointINSは直交オフセット分岐を用いて、高レベルの意味理解と幾何学的推論を共同で学習し、インスタンスの気づきを実現します。頑健なインスタンスローカライゼーションに不可欠な2つの一貫した性質を特定し、それらを補完的な正則化戦略として定式化します。Offset Distribution Regularization（ODR）は、予測されたオフセットを経験的に観測された幾何学的事前知識に整合させ、Spatial Clustering Regularization（SCR）は、疑似インスタンスマスクでオフセットを正則化することで局所的な一貫性を強制します。5つのデータセットにわたる大規模な実験の結果、PointINSは、屋内インスタンスセグメンテーションで平均+3.5%のmAP向上、屋外パンオプティックセグメンテーションで+4.1%のPQ向上を達成し、スケーラブルな3D基盤モデルへの道を切り拓きます。