UniSem: ポーズ情報なしの疎な画像からの一般化可能なセマンティック3D再構成

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • UniSemは、疎でポーズ情報のない画像からセマンティック対応の3D再構成を可能にする統一フレームワークを提案し、従来の3D Gaussian Splatting法における不安定性と3Dセマンティクスの不完全さに対処する。
  • エラーを意識したガウスドロップアウト(EGD)を導入し、レンダリング誤差の手がかりに基づいて冗長なガウスプリミティブを抑制することで、より安定した幾何と深度推定の改善を実現する。
  • さらに、Mix-training Curriculum(MTC)を提案し、2Dセグメンター由来のセマンティクスと、物体レベルのプロトタイプ整列を通じて出現する3Dセマンティック事前知識を混合して統合し、意味的一貫性を高める。
  • ScanNetとReplicaでの実験は、深度推定とオープンボキャブラリな3Dセマンティック分割において顕著な改善を示し、16視点で深度誤差を15.2%低減し、mAccを3.7%向上させた。

アブストラクト: セマンティック情報を考慮した疎で姿勢情報のない画像からの3D再構成は、フィードフォワード3Dガウシアン・スプラッティング(3DGS)において依然として困難です。従来法は、疎視点監視の下で過剰なガウスプリミティブの集合を予測することが多く、幾何が不安定になり、深度品質が劣化します。 一方、意味付けには2Dセグメンターの特徴量のみに依存しており、3Dレベルの情報が弱く、一般化可能な監督信号が限られているため、新規シーンにおいて3Dセマンティクスは不完全になります。これらの問題に対処するため、深度の精度と意味一般化を同時に向上させる統一フレームワーク UniSem を提案します。これは2つの重要な構成要素によって実現されます。第一に、Error-aware Gaussian Dropout(EGD)は、レンダリング誤差の手がかりを用いて冗長になりやすいガウスを抑制することで、誤差指向の容量制御を実施し、深度推定を改善する意味のある、幾何学的に安定したガウス表現を生成します。第二に、Mix-training Curriculum(MTC)を導入します。これは、2Dセグメンターにより持ち上げられた意味情報を、モデル自身が新たに生み出す3Dセマンティック事前知識と段階的に混ぜ合わせ、オブジェクトレベルのプロトタイプ整列を用いて意味的一貫性と完全性を高めるものです。ScanNetとReplicaでの広範な実験は、入力ビューの数に関係なく、深度予測とオープンボキャブラリ3Dセグメンテーションの性能において UniSem が優れた成果を達成することを示しています。特に、16ビューの入力では、深度 Rel を 15.2%低減し、オープンボキャブラリ3Dセグメンテーションの mAcc を 3.7%改善します。