GPA-VGGT:幾何学と物理を意識した損失による自己教師あり学習で、VGGTを大規模ローカライゼーションへ適応する
arXiv cs.RO / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模でラベル未付与の環境におけるカメラローカライゼーションを改善するために、Visual Geometry Grounded Transformer(VGGT)向けの自己教師あり学習トレーニングフレームワークであるGPA-VGGTを提案する。
- ハードな教師あり信号を置き換え、ペア単位の幾何学的関係をシーケンス単位の幾何学的制約へ拡張することで、複数のソースフレームをサンプリングし、それらをターゲットフレームへ射影して時間的な特徴の一貫性を強制する。
- 本手法は、物理に基づくフォトメトリック整合性と幾何学的制約を組み合わせた結合最適化損失を用い、正解ラベルなしでマルチビュー幾何を学習できるようにする。
- 実験では、数百イテレーション以内での高速収束と、大規模ローカライゼーションにおける大幅な性能向上が報告されており、クロスビュー注意層の改善に加えて、カメラおよび深度予測ヘッドの改善も確認される。
- 著者らは、コードをGitHubで公開する予定であり、再現性の向上およびさらなる研究利用を支援すると述べている。




