要旨: マルチモーダル学習は点群補完の分野で進展しているものの、理論的なメカニズムは依然として不明です。近年の研究では成功はモダリティ間の結びつきによるものだとされてきましたが、私たちは標準的なハード射影がこの結びつきを断ち切ってしまうことを見出しました。疎な点群を画像平面に射影すると、支持(サポート)が極端に疎になり、視覚的な事前情報の伝播を妨げます。この失敗モードを私たちはCross-Modal Entropy Collapse(クロスモーダル・エントロピー崩壊)と呼びます。こうした実用上の制約に対処するため、私たちはSplAttNを提案します。SplAttNはハード射影の代わりに微分可能なGaussian Splattingを用い、密で連続的な画像平面表現を生成します。射影を連続的な密度推定として再定式化することで、SplAttNは崩壊した疎な支持を回避し、勾配の流れを促進し、モダリティ間の結びつきの学習可能性を向上させます。大規模な実験の結果、SplAttNはPCNおよびShapeNet-55/34において先端(state-of-the-art)の性能を達成することが示されました。重要な点として、実世界のKITTIベンチマークを、マルチモーダルへの依存のストレステストとして用いています。反事実的評価では、ベースラインが視覚の除去に鈍感な単一モダリティのテンプレート探索器へと退化する一方で、SplAttNは視覚的手がかりへの頑健な依存を維持しており、私たちの方法が有効なクロスモーダル結びつきを確立することを裏付けています。コードは https://github.com/zay002/SplAttN で公開されています。
SplAttN:ガウス・ソフト・スパッティングとアテンションで2Dと3Dを橋渡しするポイントクラウド補完
arXiv cs.CV / 2026/5/5
📰 ニュースModels & Research
要点
- 本論文は、マルチモーダルなポイントクラウド補完において標準的なハード射影がモダリティ間のつながりを断ち切り、Cross-Modal Entropy Collapse という失敗モードが起きると主張している。
- SplAttNは、ハード射影をDifferentiable Gaussian Splattingに置き換えて、密で連続的な画像平面表現を生成し、学習可能なモダリティ間の接続と勾配伝播を改善することを狙っている。
- 実験では、PCNおよびShapeNet-55/34のポイントクラウド補完ベンチマークで最先端(SOTA)の性能が得られたと報告されている。
- 実世界ベンチマークのKITTIでストレステストを行い、反実仮想評価により、比較手法が視覚情報に鈍感な単一モダリティのテンプレートリトリーバーへ劣化する一方で、SplAttNは視覚手がかりへの依存を保つことを示した。
- 著者は実装コードをGitHubで公開している。




