C-GenReg:生成的な多視点整合RGB生成と確率的モダリティ融合による、学習不要の3D点群登録

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • C-GenRegは、学習ベースの3D点群登録が苦手とするモダリティ間・環境間の一般化の弱さを解決する、学習不要(training-free)の枠組みです。
  • 入力幾何から世界基盤モデルを用いて、マルチビューで整合的なRGB表現を生成することで、点群のマッチング問題を補助的な画像領域へ転送し、微調整なしで動作します。
  • 生成したマルチビュー画像から視覚基盤モデルが密な対応関係を抽出し、元の深度マップを使ってピクセル対応を3Dへ復元(持ち上げ)します。
  • 「Match-then-Fuse」と呼ぶ確率的なコールド融合により、生成RGBブランチと生の幾何ブランチの2つの対応事後分布を統合し、追加学習なしで較正された信頼度を得て頑健性を高めます。
  • 室内外ベンチマークでゼロショット性能が高く、ドメインをまたいだ一般化も改善されることが示され、さらに画像データがない実環境の屋外LiDARでも動作する生成的登録フレームワークを初めて実証しています。

Abstract

本論文では、3Dポイントクラウド登録のための学習不要(training-free)フレームワークであるC-GenRegを提案する。C-GenRegは、世界規模の生成的事前知識(world-scale generative priors)と、登録(registration)に特化したビジョン・ファウンデーション・モデル(Vision Foundation Models: VFMs)の相補的な強みを活用する。現状の学習ベースの3Dポイントクラウド登録手法は、センシングモダリティ、サンプリングの違い、環境間にまたがって一般化することが難しい。そこでC-GenRegは、幾何学的ポイントクラウド登録の分岐を拡張し、マッチング問題を補助的な画像領域へ転送する。具体的には、入力ジオメトリからWorld Foundation Modelを用いて、複数視点で整合的なRGB表現を合成し、VFMsが得意とする領域に問題を移す。この生成的な転送により、微調整(fine-tuning)を一切行わずに、ソース視点とターゲット視点間の空間的な整合性(spatial coherence)を保持できる。生成されたビューから、密な対応(dense correspondences)を見つけるために事前学習されたVFMがマッチを抽出する。得られたピクセル対応は、元の深度マップを介して3Dへと持ち戻される。さらに頑健性を高めるために、「Match-then-Fuse(先に対応付けてから融合する)」という確率的なコールドフュージョン手法を導入する。この手法は、生成RGB分岐と生の幾何分岐という2つの独立した対応事後分布(correspondence posterior)を組み合わせる。こうした原理に基づく融合により、各モダリティの帰納バイアスを保持し、追加学習なしで較正された信頼度を提供できる。C-GenRegはゼロショットでプラグアンドプレイ可能であり、すべてのモジュールは事前学習済みで、微調整を行わずに動作する。屋内(3DMatch、ScanNet)および屋外(Waymo)の広範な実験により、強力なゼロショット性能と、ドメイン間での優れた一般化が示される。さらに、初めて、画像データが利用できない実際の屋外LiDARデータ上で正常に動作する、生成的登録フレームワークを実証する。