要旨:フィードフォワード型の3D基盤モデルは、グローバル注意機構によって導入される二次の計算コストという重要な課題に直面しており、入力長が増加するにつれてスケーラビリティを著しく制限します。トークン統合などの同時加速手法は、トークンレベルで動作します。局所的な節約を提供する一方で、必要な最近傍探索は望ましくないオーバーヘッドを生み出します。従って、これらの技術は、密度の高いキャプチャデータにおいて支配的な構造的冗長性という根本的な問題には対処できません。本研究では、\textbf{S-VGGT}を導入します。構造フレームレベルの冗長性に対処する新しいアプローチで、最適化の焦点を大きく転換します。まず、初期特徴を活用して密なシーングラフを構築し、これが構造的なシーン冗長性を特徴づけ、以降のシーン分割を導きます。このグラフを用いて、フレームを少数のサブシーンにソフトに割り当て、均衡の取れたグループと滑らかな幾何学的遷移を保証します。核心的な革新は、サブシーンが共通の参照フレームを共有するよう設計する点にあり、明示的な幾何学的整合を伴わずに、独立で高い効率を発揮する処理を可能にする並列幾何ブリッジを確立します。これにより、構造的再編成はグローバルアテンションのコストを源から削減することで、強力な内在的加速を提供します。非常に重要なのは、S-VGGTはトークンレベルの加速手法と完全に直交しており、両者をシームレスに組み合わせることで、再構成忠実度を損なうことなく累積的なスピードアップを実現します。コードはhttps://github.com/Powertony102/S-VGGTで入手可能です。
S-VGGT: 構造を意識したサブシーン分解によるスケーラブルな3Dファウンデーションモデル
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- S-VGGT は、初期特徴から密なシーングラフを構築してサブシーンの分割を導くことで、3Dファウンデーションモデルにおける二乗オーダーのグローバル・アテンションコストを削減する構造認識型サブシーン分解を導入する。
- サブシーンは、共有参照フレームを持つ少数のグループへソフトに割り当てられ、独立して効率的な処理と、明示的な幾何整列を伴わない滑らかな幾何遷移を可能にする。
- 本アプローチはトークンレベルの加速手法とは直交しており、それらの手法と組み合わせることで、再構成の忠実度を損なうことなく、さらなる速度向上を得られる。
- 高密度のキャプチャデータにおける構造的冗長性を標的とすることで、ボトルネックの源に内在的な加速を提供し、長大な入力長に対するスケーラビリティを向上させる。
- 著者らは再現性と実用的な採用のために GitHub でコードを公開する。
