要旨: 視覚SLAMアルゴリズムは、3Dガウス・スプラッティング(3DGS)表現を探索することで、特に高忠実度の高密度マップ生成において大きな改善を達成しています。しかし、静的環境という前提に依存しており、動的環境では性能が大幅に低下します。本論文では、GGD-SLAMという枠組みを提案します。この枠組みは、あらかじめ定義されたセマンティック注釈や深度入力を用いずに、動的環境におけるローカライゼーションと高密度マッピングの課題に対処するための汎用化可能なモーションモデルを採用します。具体的には、提案システムは、入力フレームを管理するためにFirst-In-First-Out(FIFO)キューを用い、逐次的な注意機構によって動的なセマンティック特徴抽出を可能にします。これは、静的成分と動的成分を分離するための動的特徴エンハンサーと統合されます。さらに、動的な気が散る要因(ディストラクタ)が静的成分へ与える影響を最小化するために、静的情報のサンプリングによって遮蔽領域を埋める手法を考案し、動的環境向けに調整したディストラクタ適応型構造類似度指数(SSIM)損失を設計します。これにより、システムの頑健性が大幅に向上します。実世界の動的データセットで行った実験により、提案システムが動的シーンにおけるカメラ姿勢推定および高密度再構成で最先端の性能を達成することが示されました。
GGD-SLAM: 一般化可能なモーションモデルによって駆動されるダイナミック環境向けモノキュラー3DGS SLAM
arXiv cs.RO / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、3D Gaussian Splattingを活用して高忠実度の高密度マップを生成しつつ、ダイナミック環境におけるSLAMの一般的な失敗を克服する、モノキュラーSLAMフレームワーク「GGD-SLAM」を提案する。
- GGD-SLAMは、事前に定義されたセマンティックな注釈や外部の深度入力に依存せず、一般化可能なモーションモデルによって、ローカライゼーション(カメラ姿勢推定)と高密度再構成の両方を改善する。
- システムは、動的なセマンティック特徴抽出のためにFIFOキューに加えて逐次的なアテンションを取り入れ、さらに静的成分と動的成分を分離するダイナミック特徴エンハンサーを組み込む。
- 動的なディストラクタがもたらす有害な影響を低減するために、静的情報のサンプリングにより遮蔽領域を補完し、特にダイナミックなシーン向けに設計されたディストラクタ適応型SSIM損失を導入する。
- 実世界のダイナミックデータセットでの実験により、ダイナミック環境における姿勢推定および高密度再構成で最先端の性能が報告されている。
