概要: ロバストな点群登録は、3Dコンピュータビジョンおよび幾何学的ディープラーニングにおける基礎的なタスクであり、大規模な3D再構成、拡張現実、シーン理解といったアプリケーションにとって不可欠です。しかし、確立された学習ベースの手法の性能は、不完全なデータ、センサーのノイズ、重なり領域が低いといった複雑で実世界のシナリオにおいてしばしば低下します。これらの制限に対処するため、CMHANet、革新的なクロスモーダル・ハイブリッド・アテンション・ネットワークを提案します。私たちの手法は、2D画像から得られる豊かな文脈情報と3D点群の幾何学的ディテールの融合を統合し、包括的で頑健な特徴表現を生み出します。さらに、対照学習に基づく革新的な最適化関数を導入し、幾何学的一貫性を強制し、ノイズや部分的観測に対するモデルの頑健性を大幅に向上させます。我々はCMHANetを3DMatchおよび難易度の高い3DLoMatchデータセットで評価しました。
\rev{また、TUM RGB-D SLAMデータセット上でのゼロショット評価は、未知のドメインに対するモデルの一般化能力を検証します。}
実験結果は、私たちの手法が登録精度と全体的な頑健性の両方で大幅な改善を達成し、現行の技術を上回ることを示しています。また、コードを \href{https://github.com/DongXu-Zhang/CMHANet}{https://github.com/DongXu-Zhang/CMHANet} で公開します。
CMHANet: 点群登録のためのクロスモーダル・ハイブリッド・アテンションネットワーク
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- CMHANetは、2D画像の文脈と3D点群ジオメトリを融合するクロスモーダル・ハイブリッド・アテンションネットワークを提案し、点群登録の頑健性を向上させる。
- このアプローチは、不完全なデータ、センサノイズ、低い重なりといった現実世界の課題に対処するため、クロスモーダル情報を活用してよりリッチな特徴を得る。
- 幾何学的一貫性を確保し、ノイズや部分観測に対する頑健性を高めるための、コントラスト学習に基づく最適化目的を導入する。
- 3DMatchおよび3DLoMatchでの実験(TUM RGB-D SLAMでのゼロショット評価を含む)において、顕著な改善を示し、汎化性能を実証。コードはGitHubで公開されています。