要旨: 現代の視覚世界モデリングシステムは、もっともらしい動きを生成するために、高容量のアーキテクチャと大規模データへの依存をますます強めています。しかし、それらはしばしば、基礎となる3Dジオメトリや物理的に整合したカメラのダイナミクスを保持できません。この主要な限界は、モデルの容量だけでなく、幾何構造を符号化するために用いられる潜在表現にもあります。本稿では、S^2VAEを提案します。これは、見かけ(appearance)だけをモデル化するのではなく、カメラ運動、奥行き、点レベルの構造を含む、シーンの潜在3D状態を圧縮し表現することに焦点を当てたジオメトリ優先の潜在学習フレームワークです。Visual Geometry Grounded Transformer(VGGT)から得られる表現に基づき、Power Spherical潜在分布の積(product of Power Spherical latent distributions)を用いる、新しいタイプの変分オートエンコーダを導入します。強い圧縮下でも方向的および幾何学的意味論を保持するために、ボトルネックにおいて超球(hyperspherical)の構造を明示的に強制します。深度推定、カメラ姿勢回復、点群再構成の各タスクにおいて、ジオメトリ整合な超球面潜在表現は、従来のガウス型ボトルネックに対して一貫して優れた性能を示し、特に高圧縮の領域でその傾向が顕著です。これらの結果は、物理的に基礎づけられた視覚および世界モデルにおいて、潜在ジオメトリを最上位の設計選択として扱うことを示しています。
ガウス・ボトルネックを超えて:視覚トランスフォーマー特徴空間のトポロジカルに整合したエンコーディング
arXiv cs.CV / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚世界モデルの失敗はモデルの容量だけでなく、3D幾何やカメラの物理的に整合した動力学を潜在表現が保持できていないことにも起因すると主張しています。
- S$^2$VAEとして、シーンの3D状態(カメラ運動、深度、点レベル構造)を圧縮・表現する「幾何優先」の潜在学習枠組みを提案し、外見のみを扱う方針から転換します。
- Power Spherical分布の積にもとづくVAEにより、ボトルネックで超球面(ハイパースフェリカル)構造を明示的に強制し、強い圧縮下でも方向性や幾何学的意味を保ちやすくします。
- 深度推定、カメラ姿勢推定(回復)、点群再構成の各タスクで、超球面潜在は従来のガウス・ボトルネックより一貫して優れ、特に高圧縮条件で優位性が大きいことを示しています。
- 著者らは、物理的に根拠のある視覚・世界モデルのために、潜在の幾何を第一級の設計要素として扱うべきだと結論づけています。