ViewSplat:フィードフォワード合成のための視点適応型ダイナミック・ガウシアン・スプラッティング

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ViewSplatは、ポーズされていない画像からの新規視点合成のための、視点適応型3Dガウシアン・スプラッティング・ネットワークであり、既存のフィードフォワード(単一ステップ)ガウシアン・スプラッティング手法における忠実度のギャップを狙い撃ちします。
  • すべての視点に対して1つの固定されたガウシアン原始の集合を回帰する代わりに、視点に応じて変化する潜在表現を学習します。動的MLPが、ガウシアン属性(位置、スケール、回転、不透明度、色)に対する視点依存の残差更新を生成します。
  • この手法は、静的な原始回帰から視点適応型のダイナミック・スプラッティングへと転換し、レンダリング中に原始が初期推定誤差を補正できるようにします。
  • 実験では、高い視覚的忠実度の最先端性能を維持しつつ高速性も保持していると報告されており、推論で17 FPS、リアルタイムレンダリングで154 FPSを含みます。
  • 本研究はarXivの発表として提示されており、シーンごとの最適化へ戻ることなく再構成品質を改善するための新しいアーキテクチャ的アイデアを提供します。

Abstract

本稿では、ポーズ未確定の画像からの新規視点合成のための、視点適応型3DガウススプラッティングネットワークであるViewSplatを提案します。近年のフィードフォワード型3Dガウススプラッティングは、シーンごとの最適化を回避することで3Dシーン再構成を大幅に高速化しましたが、根本的な忠実度(fidelity)のギャップが依然として残っています。このボトルネックの原因は、単一ステップのフィードフォワードネットワークが、すべての視点を満たす静的なガウスプリミティブを回帰(regress)するための能力が限られている点にあると考えます。これに対処するため、静的プリミティブ回帰から、視点適応型の動的スプラッティングへとパラダイムを転換します。剛体(rigid)なガウス表現の代わりに、提案手法のパイプラインは視点に適応可能な潜在表現を学習します。具体的には、ViewSplatはまず、動的MLPの重みとともにベースとなるガウスプリミティブを予測します。レンダリング時には、これらのMLPに目標視点座標を入力し、各ガウス属性(すなわち3D位置、スケール、回転、透過度、色)に対して、視点依存の残差更新を予測させます。この仕組みを、我々は視点適応型動的スプラッティング(view-adaptive dynamic splatting)と呼びます。これにより、各プリミティブが初期推定の誤りを修正でき、高忠実度な見え(appearance)を実効的に捉えられます。大規模な実験の結果、ViewSplatは、高い忠実度を最先端の性能で達成しつつ、高速推論(17 FPS)およびリアルタイムレンダリング(154 FPS)を維持することが示されました。