GPA-VGGT：幾何学と物理を意識した損失による自己教師あり学習で、VGGTを大規模ローカライゼーションへ適応する

arXiv cs.RO / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模でラベル未付与の環境におけるカメラローカライゼーションを改善するために、Visual Geometry Grounded Transformer（VGGT）向けの自己教師あり学習トレーニングフレームワークであるGPA-VGGTを提案する。
ハードな教師あり信号を置き換え、ペア単位の幾何学的関係をシーケンス単位の幾何学的制約へ拡張することで、複数のソースフレームをサンプリングし、それらをターゲットフレームへ射影して時間的な特徴の一貫性を強制する。
本手法は、物理に基づくフォトメトリック整合性と幾何学的制約を組み合わせた結合最適化損失を用い、正解ラベルなしでマルチビュー幾何を学習できるようにする。
実験では、数百イテレーション以内での高速収束と、大規模ローカライゼーションにおける大幅な性能向上が報告されており、クロスビュー注意層の改善に加えて、カメラおよび深度予測ヘッドの改善も確認される。
著者らは、コードをGitHubで公開する予定であり、再現性の向上およびさらなる研究利用を支援すると述べている。

Abstract

トランスフォーマーに基づく汎用的な視覚ジオメトリの枠組みは、カメラ姿勢推定や3Dシーン理解において有望な性能を示してきました。近年、Visual Geometry Grounded Transformer（VGGT）モデルの進展により、カメラ姿勢推定や3D再構成で大きな可能性が示されています。しかし、これらのモデルは通常、学習のために教師データ（正解ラベル）に依存しており、ラベルなしで未観測のシーンへ適応する際に課題が生じます。本論文では、ラベルなしデータを用いてVGGTを学習するための自己教師ありフレームワークを提案し、大規模環境におけるローカライゼーション能力を高めます。これを実現するために、従来のペアワイズ関係を、自己教師あり学習のためのシーケンス単位の幾何学的制約へ拡張します。具体的には、各シーケンスにおいて複数のソースフレームをサンプリングし、それらを異なるターゲットフレームへ幾何学的に射影することで、時間方向の特徴の一貫性が向上します。さらに、物理に基づくフォトメトリック（輝度）整合性と幾何学的制約を、共同最適化の損失として定式化することで、ハードラベルを必要としないようにします。この提案手法でモデルを学習することで、ローカルおよびグローバルなクロスビュー注意層だけでなく、カメラヘッドと深度ヘッドも、基礎となるマルチビュー幾何を効果的に捉えられることが分かります。実験の結果、モデルは数百イテレーション以内に収束し、大規模ローカライゼーションにおいて顕著な改善を達成することが示されました。コードは https://github.com/X-yangfan/GPA-VGGT で公開予定です。