HyVGGT-VO: フィードフォワードモデルによる密なハイブリッド視覚オドメトリ（強く結合された）

arXiv cs.RO / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

HyVGGT-VOは、フィードフォワード型の密な地図/再構成能力と、従来のスパースVOの計算効率・高頻度姿勢推定を両立する新しい密視覚オドメトリ（VO）フレームワークを提案しています。
伝統的な光学フローとVGGTのトラッキングヘッドを状況に応じて切り替える「適応的なハイブリッド追跡フロントエンド」により、頑健性を保ちながら密な処理の負荷を抑える設計です。
姿勢推定とVGGT予測のスケールを同時に更新する階層的最適化により、グローバルなスケール整合性を高めることを狙っています。
室内のEuRoCデータセットで平均軌跡誤差を85%低減、屋外のKITTIで12%改善し、既存のVGGTベース手法に対して約5倍の処理速度向上を報告しています。
受理後にコード公開予定で、密SLAMのリアルタイム性課題に対する実装可能な改善策として注目されます。

要旨: 密な視覚オドメトリ（VO）は、姿勢推定と高密度3D再構成を提供し、ロボティクスから拡張現実まで幅広いアプリケーションの基盤となる。近年、フィードフォワードモデルは密なマッピングにおいて目覚ましい能力を示している。だが、これらのモデルを密な視覚SLAMシステムで用いると、その計算負荷の高さのために、キーフレームでのみ疎な姿勢出力を生成できるにとどまり、なおリアルタイムの姿勢推定を達成できないという問題がある。対照的に、従来の疎な手法は計算効率が高く高頻度な姿勢出力を提供する一方で、密な再構成を行う能力を欠いている。これらの制約に対処するため、我々は、疎なVOの計算効率とフィードフォワードモデルの密な再構成能力を組み合わせた新しい枠組みHyVGGT-VOを提案する。知る限り、従来のVOフレームワークと最先端のフィードフォワードモデルであるVGGTを密に結合した最初の研究である。具体的には、堅牢性を確保するために、従来のオプティカルフローとVGGTのトラッキングヘッドを動的に切り替える適応型ハイブリッド・トラッキング前処理（frontend）を設計する。さらに、VOの姿勢とVGGT予測のスケールを同時に洗練し、グローバルなスケール整合性を保証する階層的最適化フレームワークを導入する。我々の手法は、既存のVGGTベース手法と比べて約5倍の処理速度向上を達成し、屋内のEuRoCデータセットでは平均軌跡誤差を85%削減し、屋外のKITTIベンチマークでは12%削減する。コードは採択後に公開する予定。プロジェクトページ: https://geneta2580.github.io/HyVGGT-VO.io。