AI Navigate

GGPT: ジオメトリに基づくポイント・トランスフォーマー

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

要点

  • GGPTは、改良されたStructure-from-Motionパイプラインと幾何学ガイド付きの3D点トランスフォーマーを組み合わせ、幾何学的に一貫し、空間的に完全な再構成を生成します。
  • 密な特徴量マッチングと軽量な幾何最適化を用いて、スパースな入力ビューから正確なカメラ姿勢と部分的な3D点群を推定します。
  • VGGT予測を用いたScanNet++のみで学習したGGPTは、アーキテクチャやデータセットを横断して一般化し、ドメイン内外の設定で最先端のフィードフォワード再構成モデルを大幅に上回ります。
  • このフレームワークは最適化されたガイダンスエンコードを採用し、明示的な部分幾何学的監督を注入して、幾何学的事前知識と密な予測の効果的な統合を実現します。
本文: arXiv:2603.11174v1 アナウンス種別: 新着 要旨:最近のフィードフォワードネットワークは、RGB画像から直接密な点群マップを予測することにより、スパースビュー3D再構成において顕著な進歩を遂げています。しかし、明示的な多視点制約の欠如により、幾何的一貫性の欠如や細部の高精度性が制限されることが多いです。我々はGeometry-Grounded Point Transformer (GGPT)を導入します。これは信頼性のあるスパース幾何ガイダンスを用いてフィードフォワード再構成を補強するフレームワークです。我々はまず、密な特徴量マッチングと軽量な幾何最適化に基づく改良版Structure-from-Motionパイプラインを提案し、スパースな入力ビューから正確なカメラ姿勢と部分的な3D点群を効率的に推定します。この基盤の上に、最適化されたガイダンスエンコーディングを用いて明示的な部分幾何学的監督の下で密な点群マップを洗練させる、幾何ガイダンス付きの3D点トランスフォーマーを提案します。広範な実験は、本手法が幾何学的事前知識を密なフィードフォワード予測と統合するための原理的な機構を提供し、幾何的に一貫性があり空間的に完全な再構成を生み出し、細かな構造を回復し、テクスチャのない領域のギャップを埋めることを示しています。VGGT予測を用いてScanNet++のみで学習したGGPTは、アーキテクチャやデータセットを横断して一般化し、ドメイン内外の設定において最先端のフィードフォワード3D再構成モデルを大幅に上回ります。