点群理解のための変形に基づくインコンテキスト学習

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マスク付きポイントモデリング（MPM）型のマスク再構成を、プロンプトにより導かれる学習済みの変形へ置き換える、変形に基づく点群インコンテキスト学習の枠組みDeformPICを提案する。
著者らは、MPMベースの手法は幾何学的な事前知識を欠いており、推論時に利用できないターゲット側の情報に依存するため、訓練と推論の間に不一致が生じると主張する。
DeformPICは代わりに、タスク固有のプロンプト指示のもとでクエリ点群を変形させることで明示的な幾何学的推論を行い、学習目的を推論時の挙動により密接に整合させる。
実験では、従来手法に対して平均Chamfer Distanceが、再構成で1.6、デノイジングで1.8、登録（registration）で4.7低減するなど、一貫した最先端の改善が報告されている。
著者らはさらに、未見のデータ分布に対する汎化のための新しいアウト・オブ・ドメイン・ベンチマークも提案しており、DeformPICはそこで最先端の結果を達成する。

要旨: 点群インコンテキスト学習（ICL）の最近の進展は、多タスクに対する強い能力を示している。既存の手法は一般に、点群ICLに対してMasked Point Modeling（MPM）ベースのパラダイムを採用する。しかし、MPMベースの手法は幾何学的事前知識を活用せず、マスクされたトークンからターゲットの点群を直接予測するため、モデルはトランスフォーマーによるトークン単位の相関のみから空間構造や幾何学的詳細を推論する必要がある。さらに、これらの手法は学習時と推論時の目的の不一致に悩まされる。すなわち、モデルは推論時には利用できないターゲット側の情報を用いてターゲットの点群を予測することを学習してしまう。これらの課題に対処するため、点群ICLのための変形ベースの枠組みであるDeformPICを提案する。マスクされた再構成に依存する既存の手法とは異なり、DeformPICはプロンプトから得られるタスク特化のガイダンスのもとでクエリ点群を変形することを学習し、明示的な幾何学的推論と、一貫した目的関数を実現する。大規模な実験により、DeformPICが従来の最先端手法を一貫して上回ることを示す。再構成、ノイズ除去、登録の各タスクにおいて平均Chamfer Distanceがそれぞれ1.6、1.8、4.7ポイント低減される。さらに、未見のデータ分布にまたがる一般化を評価するための新しい領域外ベンチマークを導入し、そこでもDeformPICが最先端の性能を達成する。