LESV:オープンボキャブラリ3Dシーン理解のための言語埋め込みスパースボクセル・フュージョン
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、3Dガウシアン・スプラッティング(3D Gaussian Splatting)ベース手法の限界(空間的曖昧さ、重なり合った/構造化されていないガウシアンによる意味の混ざり=セマンティック・ブリーディング、そしてマスク・プーリングの問題など)に対処する新しい枠組みとして、LESVを提案する。
- LESVは、構造化されていないガウシアン表現を、分離可能なジオメトリ表現であるSparse Voxel Rasterization(SVRaster)で置き換え、単眼深度および表面法線の事前知識に基づいて正則化することで、ジオメトリの安定化を図る。
- それにより、決定論的でかつ信頼度を考慮した特徴の登録(feature registration)を可能にし、3DGSパイプラインで一般的なセマンティック・ブリーディングのアーティファクトをより良く抑制できると主張する。
- マルチレベルな意味の曖昧さを低減するため、計算コストの高い階層的学習を用いるのではなく、基盤モデルAM-RADIOの持つ高密度アラインメント特性を活用する。
- 著者らは、オープンボキャブラリ3Dオブジェクト検索およびポイントクラウド理解のベンチマークにおいて先端(state-of-the-art)の結果を報告しており、特に先行する登録手法が苦手とする微細(fine-grained)なクエリで大きな改善が見られる。




