C-GenReg：生成的な多視点整合RGB生成と確率的モダリティ融合による、学習不要の3D点群登録

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

C-GenRegは、学習ベースの3D点群登録が苦手とするモダリティ間・環境間の一般化の弱さを解決する、学習不要（training-free）の枠組みです。
入力幾何から世界基盤モデルを用いて、マルチビューで整合的なRGB表現を生成することで、点群のマッチング問題を補助的な画像領域へ転送し、微調整なしで動作します。
生成したマルチビュー画像から視覚基盤モデルが密な対応関係を抽出し、元の深度マップを使ってピクセル対応を3Dへ復元（持ち上げ）します。
「Match-then-Fuse」と呼ぶ確率的なコールド融合により、生成RGBブランチと生の幾何ブランチの2つの対応事後分布を統合し、追加学習なしで較正された信頼度を得て頑健性を高めます。
室内外ベンチマークでゼロショット性能が高く、ドメインをまたいだ一般化も改善されることが示され、さらに画像データがない実環境の屋外LiDARでも動作する生成的登録フレームワークを初めて実証しています。

Abstract

本論文では、3Dポイントクラウド登録のための学習不要（training-free）フレームワークであるC-GenRegを提案する。C-GenRegは、世界規模の生成的事前知識（world-scale generative priors）と、登録（registration）に特化したビジョン・ファウンデーション・モデル（Vision Foundation Models: VFMs）の相補的な強みを活用する。現状の学習ベースの3Dポイントクラウド登録手法は、センシングモダリティ、サンプリングの違い、環境間にまたがって一般化することが難しい。そこでC-GenRegは、幾何学的ポイントクラウド登録の分岐を拡張し、マッチング問題を補助的な画像領域へ転送する。具体的には、入力ジオメトリからWorld Foundation Modelを用いて、複数視点で整合的なRGB表現を合成し、VFMsが得意とする領域に問題を移す。この生成的な転送により、微調整（fine-tuning）を一切行わずに、ソース視点とターゲット視点間の空間的な整合性（spatial coherence）を保持できる。生成されたビューから、密な対応（dense correspondences）を見つけるために事前学習されたVFMがマッチを抽出する。得られたピクセル対応は、元の深度マップを介して3Dへと持ち戻される。さらに頑健性を高めるために、「Match-then-Fuse（先に対応付けてから融合する）」という確率的なコールドフュージョン手法を導入する。この手法は、生成RGB分岐と生の幾何分岐という2つの独立した対応事後分布（correspondence posterior）を組み合わせる。こうした原理に基づく融合により、各モダリティの帰納バイアスを保持し、追加学習なしで較正された信頼度を提供できる。C-GenRegはゼロショットでプラグアンドプレイ可能であり、すべてのモジュールは事前学習済みで、微調整を行わずに動作する。屋内（3DMatch、ScanNet）および屋外（Waymo）の広範な実験により、強力なゼロショット性能と、ドメイン間での優れた一般化が示される。さらに、初めて、画像データが利用できない実際の屋外LiDARデータ上で正常に動作する、生成的登録フレームワークを実証する。