AI Navigate

VGGT-360: 幾何学的一貫性を保つゼロショット・パノラマ深度推定

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • VGGT-360 は、パノラマ深度推定のためのトレーニングフリー、ゼロショットのフレームワークであり、タスクをパノラマから3Dへ、そして深度へと再定式化し、多視点で再構成された3Dモデルと VGGT スタイルの基盤モデルを活用する。
  • (i) 不確実性ガイド付き適応投影スライスを導入し、パノラマを透視ビューへ変換し、幾何情報が乏しい領域へより多くのビューを割り当てる。
  • (ii) 構造と顕著性を強化した注意機構を導入し、3D再構成の頑健性とクロスビューの整合性を向上させる。
  • (iii) 相関重み付け付き3Dモデル補正を導入し、アテンション由来の相関に基づいて重なり合う点を再重み付けして、幾何の一貫性を実現する。
  • このアプローチは、内在する3Dの一貫性を活用し、パノラマ入力と透視事前情報とのドメインギャップを橋渡しすることにより、断片化したビューごとの推論を一貫したパノラマ理解へ統合する。
  • 広範な実験の結果、VGGT-360 は、学習済みおよび学習不要の最先端手法を、複数の解像度や多様な室内外データセットにわたって上回ることが示されている。

概要: 本論文は、VGGT-360 を提案します。ゼロショットで幾何学的一貫性を保つパノラマ深度推定のための訓練不要な新規フレームワークです。
従来の視点非依存の訓練不要手法とは異なり、VGGT-360 は、VGGT 類の基盤モデルの内部的な3D一貫性を活用することで、タスクをマルチビュー再構成された3Dモデル上のパノラマ再投影として再定式化し、断片化された各ビューの推論を統一されたパノラマ理解へと結びつけます。
頑健で正確な推定を達成するため、VGGT-360 は、統一されたパノラマ→3D→深度のフレームワークを形成する3つのプラグアンドプレイモジュールを統合します:
(i) 不確実性ガイド付きの適応的な投影により、パノラマを透視ビューへと切り分け、パノラマ入力とVGGTの透視事前情報の間のドメインギャップを埋めます。勾配ベースの不確実性を推定し、幾何学的に乏しい領域により密なビューを割り当てることで、VGGT にとって幾何学情報豊富な入力をもたらします。
(ii) 構造・顕著性を強化した注意は、3D再構築時の VGGT の頑健性を高め、構造を意識した自信度をその注意層に注入することで、幾何学的に信頼できる領域へ焦点を導き、ビュー間の一貫性を高めます。
(iii) 相関重み付けによる3Dモデル補正は、注意から推定された相関スコアに基づいて重複する点の重みを再調整し、正確なパノラマ再投影のための一貫した幾何学的基盤を提供します。
広範な実験により、VGGT-360 は訓練済みおよび訓練不要の最先端手法の両方を、複数の解像度と多様な室内・屋外データセットにおいて上回ることを示しています。
返却形式: {"translated": "翻訳されたHTML"}