VGGT-SLAM++

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Visual Geometry Grounded Transformer(VGGT)から得られる幾何情報に富んだ出力を用いて、測位(オドメトリ)とマッピングの性能を向上させる、完全なビジュアルSLAMシステム「VGGT-SLAM++」を提案する。
  • そのパイプラインは、トランスフォーマーに基づくビジュアルオドメトリのフロントエンドと、Sim(3)の解法、DEMベースのグラフ構築モジュール、さらに高キャデンスなローカルバンドル調整(LBA)を復元することを目的としたバックエンドから構成され、軌跡の安定性を高める。
  • VGGT-SLAM++は、VGGTの各サブマップごとに高密度な平面カノニカルのデジタル標高モデル(DEM)地図を構築し、それらをパッチでつなぎ合わせ、DINOv2の埋め込みとビジュアル・プレイス認識(VPR)を用いてサブマップを共可視性(covisibility)グラフへ統合する。
  • 共可視性ウィンドウ内で空間的な近傍を取得することで、頻繁なローカル最適化を起動し、短いホライズンでの姿勢ドリフトを大幅に低減するとともに、メモリ使用量を抑えつつグラフの収束を改善する。
  • 一般的なSLAMベンチマークでの実験により、コンパクトなDEMタイルと準線形(sublinear)な取得を用いて、最先端の精度、より速い収束、グローバルな整合性の維持が報告されている。

Abstract

本稿では、Visual Geometry Grounded Transformer(VGGT)の幾何学的に情報量の多い出力を活用する、完全なビジュアルSLAMシステムであるVGGT-SLAM++を提案します。本システムは、VGGTのフィードフォワード・トランスフォーマーとSim(3)解を融合するビジュアルオドメトリ(フロントエンド)、Digital Elevation Map(DEM)に基づくグラフ構築モジュール、および、メモリ使用量に上限を設けたまま正確な大規模マッピングを可能にするバックエンドから構成されます。先行するVGGT-SLAMのようなトランスフォーマーベースのSLAMパイプラインでは、主に疎なループクロージャや大域的なSim(3)マニフォールド制約に依存するため、短いホライズンでのポーズドリフトが許容されていました。VGGT-SLAM++では、空間的に修正するバックエンドにより、高い更新頻度でローカルバンドル調整(LBA)を復元します。各VGGTサブマップについて、密な平面正準DEMを構築し、それをパッチに分割したうえで、DINOv2埋め込みを計算してサブマップを共視性(covisibility)グラフに統合します。空間的近傍は、共視性ウィンドウ内でVisual Place Recognition(VPR)モジュールを用いて取得し、頻繁なローカル最適化をトリガすることで軌跡を安定化させます。標準的なSLAMベンチマークにおいて、VGGT-SLAM++は最先端の精度を達成し、短期ドリフトを大幅に低減し、グラフの収束を加速し、コンパクトなDEMタイルと準線形(sublinear)な検索により大域的整合性を維持します。