DualSplat:再構成失敗から擬似マスクをブートストラップして堅牢な3Dガウススプラッティングを実現

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、3D Gaussian Splatting(3DGS)が、トレーニング画像に一時的な(トランジェント)物体が含まれて多視点の整合性が崩れると大きく性能低下することを指摘しています。
  • 従来手法では、静的シーンが適切に再構成されていないとトランジェント検出が正確にできず、一方でクリーンな再構成にも信頼できるトランジェントマスクが必要という「循環依存」があると述べています。
  • DualSplatは、1回目の再構成失敗を2回目の再構成のための明示的な事前知識(prior)へ変換することで、この課題を解決します。
  • 擬似マスクは、フォトメトリック残差、特徴の不一致、SAM2のインスタンス境界を組み合わせてオブジェクト単位で生成し、その後軽量なMLPでオンラインに改良しながら、事前の教師信号から自己整合へ徐々に重み付けを移します。
  • RobustNeRFおよびNeRF On-the-goでの実験ではDualSplatが既存ベースラインを上回り、とりわけトランジェントが多いシーンや領域で明確な優位性が示されたと報告しています。

要旨: 3Dガウス・スパッティング(3DGS)はリアルタイムのフォトリアルなレンダリングを実現しますが、学習画像に一時的な対象(トランジェント)が含まれており、それが多視点の一貫性を破る場合、性能は大きく低下します。既存手法は循環的な依存関係に直面しています。すなわち、正確なトランジェント検出には適切に再構成された静的シーンが必要である一方、クリーンな再構成自体は信頼できるトランジェント・マスクに依存します。本研究では、この課題に対し、DualSplat を提案します。DualSplat は「優先情報への失敗(Failure-to-Prior)」の枠組みであり、最初の再構成段階での失敗を、2回目の再構成段階のための明示的な事前情報(prior)へと変換します。複数の視点のうち一部の視点にのみ現れるトランジェントは、保守的な初期学習中に不完全な断片として現れることが多いことを観察しました。そこで、フォトメトリックな残差、特徴量の不一致、SAM2のインスタンス境界を組み合わせることで、これらの失敗を用い、オブジェクト単位の疑似マスクを構築します。その後、この疑似マスクはクリーンな2回目のパスの3DGS最適化を導きます。一方で軽量なMLPが、それらをオンラインで改良し、事前情報による教師信号から自己整合性へ徐々にシフトさせていきます。RobustNeRFおよびNeRF On-the-goでの実験により、DualSplatは既存のベースラインよりも優れており、とりわけトランジェントが多いシーンやトランジェント領域において、より明確な利点を示すことを確認しました。