HD-VGGT：高解像度ビジュアルジオメトリトランスフォーマ

arXiv cs.CV / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

HD-VGGTは、高解像度画像での3D再構成を目的に、従来のVGGT系フィードフォワード手法が直面する高解像度・多視点による計算量/メモリ爆増の課題を抑えることを狙ったアーキテクチャです。
デュアルブランチ構成により、低解像度側で大域的に整合した粗いジオメトリを推定し、高解像度側で学習した特徴アップサンプリングにより細部を洗練します。
解像度を上げるほど悪化しやすい、反復パターン・弱いテクスチャ・鏡面反射などの視覚的に曖昧な領域に起因する不安定なトークン問題に対し、Feature Modulationで信頼できない特徴を早期に抑制する方針を提案しています。
full-resolutionのトランスフォーマに比べてコストを抑えつつ、高解像度入力と同等の監督情報でSOTA級の再構成品質を実現すると述べています。

Abstract

高解像度の画像は、正確な3D再構成に不可欠です。多くの幾何学的な細部は、微細な空間スケールで初めて現れるためです。Visual Geometry Grounded Transformer（VGGT）のような近年のフィードフォワード手法は、単一のフォワードパスで大量の画像からシーンの幾何を推論できることを示してきました。しかし、これらのモデルを高解像度入力へスケールさせることは依然として困難です。トランスフォーマー・アーキテクチャでは、画像解像度とビュー数の両方に対してトークン数が急速に増大し、その結果、計算コストとメモリコストが許容できないほど大きくなります。さらに、反復パターン、弱いテクスチャ、鏡面のような視覚的に曖昧な領域は、しばしば不安定な特徴トークンを生成し、特に高解像度では幾何推論を劣化させることを観察しています。そこで本研究では、高解像度の3D再構成を効率的かつ頑健に行うための二つの分岐を持つアーキテクチャ HD-VGGT を提案します。低解像度分岐は、粗いが全体として整合する幾何を予測し、高解像度分岐は、学習された特徴アップサンプリング・モジュールによって細部を洗練（リファイン）します。不安定なトークンを扱うために、トランスフォーマーの早い段階で信頼できない特徴を抑制する Feature Modulation を提案します。HD-VGGT は、高解像度画像と、フルトランスフォーマー（完全な高解像度）コストを伴わない教師信号（スーパービジョン）を活用し、最先端の再構成品質を達成します。