単一のジェネラリストより2人の専門家のほうが良い:フィードフォワード3Dガウススパッタリングにおける幾何と外観のデカップリング

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、2Xplatという、ポーズ不要のフィードフォワード型3Dガウススパッタリングの枠組みを提案し、単一の巨大なネットワークではなく2エキスパート設計を用いて、幾何推定と外観(ガウス)生成を分離している。
  • 専用の幾何エキスパートがカメラポーズを予測し、そのポーズを外観エキスパートに明示的に与えることで、3Dガウス表現を合成する。
  • 著者らは、本アプローチが5K未満の学習反復で強力な結果に到達し、従来のポーズ不要フィードフォワード3DGS手法を大幅に上回ると報告している。
  • 2Xplatの性能は最先端のポーズ付き手法と同等であるとされており、高忠実度の3D再構成では、統合型の「オールインワン」設計よりもモジュール化されたアーキテクチャが望ましい可能性を示唆している。
  • 本研究は、支配的なエンタンングル(絡み合い)型アーキテクチャのパラダイムに挑戦し、幾何+外観のタスクにおけるデカップルされたモジュール設計原理のさらなる探求を促している。

Abstract

ポーズフリーのフィードフォワード3D Gaussian Splatting(3DGS)は、単一のフォワードパスにより、キャリブレーションされていない複数視点画像から高品質なガウス表現を生成できることで、迅速な3Dモデリングに新たな地平を切り開いた。この領域の支配的なアプローチは、しばしば幾何中心の3D基盤モデルに基づいて構築される、統一されたモノリシックなアーキテクチャを採用し、単一のネットワーク内でカメラ姿勢を同時に推定し、3DGS表現を合成するというものである。アーキテクチャ上は合理化されているものの、このような「オールインワン」設計は、幾何学的推論と外観モデリングを共有表現の中で絡めてしまうため、高忠実度な3DGS生成には必ずしも適していない。本研究では、2Xplatという、幾何推定とガウス生成を明示的に分離する2つのエキスパート設計に基づく、ポーズフリーのフィードフォワード3DGSフレームワークを提案する。専用の幾何エキスパートがまずカメラ姿勢を予測し、その後、その予測結果を強力な外観エキスパートへ明示的に引き渡すことで、3Dガウスを合成する。先行研究ではほとんど検討されてこなかったという意味で概念的には単純であるにもかかわらず、提案手法は非常に有効であることが示される。提案する2エキスパートのパイプラインは、5K未満の学習イテレーションで、従来のポーズフリー・フィードフォワード3DGS手法を大幅に上回り、最先端の「ポーズあり」手法と同等の性能を達成する。これらの結果は、従来の統一的パラダイムに疑問を投げかけるとともに、複雑な3D幾何推定と外観合成のタスクに対してモジュール設計の原理がもたらし得る利点を示唆している。