GlobalSplat:グローバル・シーントークンによる効率的なフィードフォワード3Dガウシアン・スプラッティング

arXiv cs.CV / 2026/4/17

📰 ニュースModels & Research

要点

  • GlobalSplatは、3Dガウシアン・スプラッティングにおける基盤課題である、表現のコンパクトさ・高速な再構成・高い描画品質のバランスを左右する「プリミティブの効率的な割り当て」を改善することを狙っています。
  • 先行研究のフィードフォワード手法は、局所的なヒューリスティックに基づく(主にピクセル/ボクセル整合)ため、冗長性が3Dアセットに組み込まれ、入力ビューが増えるほどグローバル整合性が崩れやすいと論じられています。
  • GlobalSplatは「align first, decode later(まず整合、次にデコード)」という方針で、明示的な3Dジオメトリをデコードする前に、マルチビュー入力を符号化し、ビュー間対応(クロスビュー対応)を解決するコンパクトなグローバル潜在表現を学習します。
  • 粗いから細かいへ(coarse-to-fine)の学習カリキュラムによりデコード能力を段階的に増やし、表現の「肥大化(bloat)」を自然に抑える設計になっており、事前学習済みピクセル予測バックボーンや密なベースラインの潜在特徴の使い回しにも依存しません。
  • RealEstate10KとACIDでの評価では、16Kガウシアンという少数で(約4MBの軽量フットプリントで)競争力のある新規ビュー合成性能を示し、ベースラインより高速で単一フォワードあたり約78 msで動作すると報告されています。