StereoVGGT：ステレオ視のためのトレーニング不要ビジュアルジオメトリ・トランスフォーマー

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多くの既存のステレオ視バックボーン（MDEやビジュアル基盤モデルから派生するもの）が、カメラ姿勢の明示的な教師信号なしに事前学習されているため、ステレオ幾何の性能が制限されていると主張する。
3D事前知識（カメラ姿勢を含む）で事前学習された、ビジュアル幾何に基づくトランスフォーマーであるVGGTを調査したところ、ステレオ課題にそのまま適用すると、特徴抽出中に幾何学的な細部が劣化することが分かった。
この問題に対処するため、著者らはStereoVGGTを提案する。StereoVGGTはVGGTを凍結し、幾何学的劣化を抑えて埋め込まれたカメラキャリブレーション知識をより有効に活用するための、学習不要の特徴調整パイプラインを適用する。
StereoVGGTに基づいて構築されたステレオマッチングネットワークは、KITTIベンチマークにおいて公表手法の中で1位のランクを達成したと報告されており、このアプローチが効果的なステレオバックボーンであることを示唆している。

Abstract

3Dデバイスの進歩に後押しされ、ステレオマッチングやステレオ変換を含むステレオ視覚タスクは重要な研究フロンティアとして登場してきました。現在のステレオ視覚バックボーンは、一般に単眼奥行き推定（MDE）モデル、または視覚基盤モデル（VFM）に依存しています。重要な点として、これらのモデルは主に事前学習の段階でカメラ姿勢に対する明示的な教師信号を与えられていません。ステレオ視覚にとってそのような幾何学的知識が不可欠であることを踏まえると、既存アーキテクチャにおける明示的な空間的制約の欠如は、重大な性能ボトルネックになっています。視覚幾何に基づくトランスフォーマ（Visual Geometry Grounded Transformer; VGGT）が、カメラ姿勢を含む大規模な3D事前知識によって事前学習された基盤モデルとして機能することを踏まえ、本研究では、それをステレオ視覚タスクに対する堅牢なバックボーンとして活用できる可能性を検討します。とはいえ、実験結果は、そのままステレオ視覚へ適用すると性能が最適でないことを示しています。私たちは、VGGTが特徴抽出の過程で、幾何学的な細部がより大きく劣化してしまうことを観察しました。このような特性は、両眼ステレオ視覚の要件と衝突し、そのため相対タスクにおける有効性が制約されます。このギャップを埋めるために、ステレオ視覚専用に設計した特徴バックボーンであるStereoVGGTを提案します。凍結したVGGTを活用し、さらに学習を要しない特徴調整パイプラインを導入することで、幾何学的劣化を緩和し、モデルに埋め込まれた潜在的なカメラ校正知識を活用します。StereoVGGTに基づくステレオマッチングネットワークは、KITTIベンチマークにおいて公表された全手法の中で