HD-VGGT:高解像度ビジュアルジオメトリトランスフォーマ
arXiv cs.CV / 2026/3/31
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- HD-VGGTは、高解像度画像での3D再構成を目的に、従来のVGGT系フィードフォワード手法が直面する高解像度・多視点による計算量/メモリ爆増の課題を抑えることを狙ったアーキテクチャです。
- デュアルブランチ構成により、低解像度側で大域的に整合した粗いジオメトリを推定し、高解像度側で学習した特徴アップサンプリングにより細部を洗練します。
- 解像度を上げるほど悪化しやすい、反復パターン・弱いテクスチャ・鏡面反射などの視覚的に曖昧な領域に起因する不安定なトークン問題に対し、Feature Modulationで信頼できない特徴を早期に抑制する方針を提案しています。
- full-resolutionのトランスフォーマに比べてコストを抑えつつ、高解像度入力と同等の監督情報でSOTA級の再構成品質を実現すると述べています。



