S-VGGT: 構造を意識したサブシーン分解によるスケーラブルな3Dファウンデーションモデル

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

S-VGGT は、初期特徴から密なシーングラフを構築してサブシーンの分割を導くことで、3Dファウンデーションモデルにおける二乗オーダーのグローバル・アテンションコストを削減する構造認識型サブシーン分解を導入する。
サブシーンは、共有参照フレームを持つ少数のグループへソフトに割り当てられ、独立して効率的な処理と、明示的な幾何整列を伴わない滑らかな幾何遷移を可能にする。
本アプローチはトークンレベルの加速手法とは直交しており、それらの手法と組み合わせることで、再構成の忠実度を損なうことなく、さらなる速度向上を得られる。
高密度のキャプチャデータにおける構造的冗長性を標的とすることで、ボトルネックの源に内在的な加速を提供し、長大な入力長に対するスケーラビリティを向上させる。
著者らは再現性と実用的な採用のために GitHub でコードを公開する。

要旨：フィードフォワード型の3D基盤モデルは、グローバル注意機構によって導入される二次の計算コストという重要な課題に直面しており、入力長が増加するにつれてスケーラビリティを著しく制限します。トークン統合などの同時加速手法は、トークンレベルで動作します。局所的な節約を提供する一方で、必要な最近傍探索は望ましくないオーバーヘッドを生み出します。従って、これらの技術は、密度の高いキャプチャデータにおいて支配的な構造的冗長性という根本的な問題には対処できません。本研究では、\textbf{S-VGGT}を導入します。構造フレームレベルの冗長性に対処する新しいアプローチで、最適化の焦点を大きく転換します。まず、初期特徴を活用して密なシーングラフを構築し、これが構造的なシーン冗長性を特徴づけ、以降のシーン分割を導きます。このグラフを用いて、フレームを少数のサブシーンにソフトに割り当て、均衡の取れたグループと滑らかな幾何学的遷移を保証します。核心的な革新は、サブシーンが共通の参照フレームを共有するよう設計する点にあり、明示的な幾何学的整合を伴わずに、独立で高い効率を発揮する処理を可能にする並列幾何ブリッジを確立します。これにより、構造的再編成はグローバルアテンションのコストを源から削減することで、強力な内在的加速を提供します。非常に重要なのは、S-VGGTはトークンレベルの加速手法と完全に直交しており、両者をシームレスに組み合わせることで、再構成忠実度を損なうことなく累積的なスピードアップを実現します。コードはhttps://github.com/Powertony102/S-VGGTで入手可能です。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

S-VGGT: 構造を意識したサブシーン分解によるスケーラブルな3Dファウンデーションモデル

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer