広告

LESV:オープンボキャブラリ3Dシーン理解のための言語埋め込みスパースボクセル・フュージョン

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、3Dガウシアン・スプラッティング(3D Gaussian Splatting)ベース手法の限界(空間的曖昧さ、重なり合った/構造化されていないガウシアンによる意味の混ざり=セマンティック・ブリーディング、そしてマスク・プーリングの問題など)に対処する新しい枠組みとして、LESVを提案する。
  • LESVは、構造化されていないガウシアン表現を、分離可能なジオメトリ表現であるSparse Voxel Rasterization(SVRaster)で置き換え、単眼深度および表面法線の事前知識に基づいて正則化することで、ジオメトリの安定化を図る。
  • それにより、決定論的でかつ信頼度を考慮した特徴の登録(feature registration)を可能にし、3DGSパイプラインで一般的なセマンティック・ブリーディングのアーティファクトをより良く抑制できると主張する。
  • マルチレベルな意味の曖昧さを低減するため、計算コストの高い階層的学習を用いるのではなく、基盤モデルAM-RADIOの持つ高密度アラインメント特性を活用する。
  • 著者らは、オープンボキャブラリ3Dオブジェクト検索およびポイントクラウド理解のベンチマークにおいて先端(state-of-the-art)の結果を報告しており、特に先行する登録手法が苦手とする微細(fine-grained)なクエリで大きな改善が見られる。

広告