GGPT: ジオメトリに基づくポイント・トランスフォーマー

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

共有:

要点

GGPTは、改良されたStructure-from-Motionパイプラインと幾何学ガイド付きの3D点トランスフォーマーを組み合わせ、幾何学的に一貫し、空間的に完全な再構成を生成します。
密な特徴量マッチングと軽量な幾何最適化を用いて、スパースな入力ビューから正確なカメラ姿勢と部分的な3D点群を推定します。
VGGT予測を用いたScanNet++のみで学習したGGPTは、アーキテクチャやデータセットを横断して一般化し、ドメイン内外の設定で最先端のフィードフォワード再構成モデルを大幅に上回ります。
このフレームワークは最適化されたガイダンスエンコードを採用し、明示的な部分幾何学的監督を注入して、幾何学的事前知識と密な予測の効果的な統合を実現します。

本文: arXiv:2603.11174v1 アナウンス種別: 新着要旨：最近のフィードフォワードネットワークは、RGB画像から直接密な点群マップを予測することにより、スパースビュー3D再構成において顕著な進歩を遂げています。しかし、明示的な多視点制約の欠如により、幾何的一貫性の欠如や細部の高精度性が制限されることが多いです。我々はGeometry-Grounded Point Transformer (GGPT)を導入します。これは信頼性のあるスパース幾何ガイダンスを用いてフィードフォワード再構成を補強するフレームワークです。我々はまず、密な特徴量マッチングと軽量な幾何最適化に基づく改良版Structure-from-Motionパイプラインを提案し、スパースな入力ビューから正確なカメラ姿勢と部分的な3D点群を効率的に推定します。この基盤の上に、最適化されたガイダンスエンコーディングを用いて明示的な部分幾何学的監督の下で密な点群マップを洗練させる、幾何ガイダンス付きの3D点トランスフォーマーを提案します。広範な実験は、本手法が幾何学的事前知識を密なフィードフォワード予測と統合するための原理的な機構を提供し、幾何的に一貫性があり空間的に完全な再構成を生み出し、細かな構造を回復し、テクスチャのない領域のギャップを埋めることを示しています。VGGT予測を用いてScanNet++のみで学習したGGPTは、アーキテクチャやデータセットを横断して一般化し、ドメイン内外の設定において最先端のフィードフォワード3D再構成モデルを大幅に上回ります。

次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ

Dev.to

オープンソースAIの波とセキュリティへの投資: Qwen、Microsoft、Google の動向

Dev.to

AIモデルがクリエイティブな文章を書けないのは初期モデルに見られた創造性や独創性を抑制してビジネス用途に特化させたせいだという指摘

GIGAZINE

RLax、JAX、Haiku、Optax を用いてスクラッチから Deep Q-Learning（DQN）を実装し、カートポール環境の強化学習エージェントを訓練する

MarkTechPost

［D］SQLのみで分類器を訓練する（反復的最適化なし）

Reddit r/MachineLearning

GGPT: ジオメトリに基づくポイント・トランスフォーマー

要点

関連記事

次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ

オープンソースAIの波とセキュリティへの投資: Qwen、Microsoft、Google の動向

AIモデルがクリエイティブな文章を書けないのは初期モデルに見られた創造性や独創性を抑制してビジネス用途に特化させたせいだという指摘

RLax、JAX、Haiku、Optax を用いてスクラッチから Deep Q-Learning（DQN）を実装し、カートポール環境の強化学習エージェントを訓練する

［D］SQLのみで分類器を訓練する（反復的最適化なし）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer