MoRGS:ストリーミング可能な動的3Dシーンに向けた、効率的なガウシアンごとの運動推論

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、低遅延の制約下でストリーミングされる複数視点入力から動的(4D)3Dシーンを再構成するためのオンラインフレームワークであるMoRGSを提案する。
  • 先行するオンライン3Dガウシアン・スプラッティング手法は、フォトメトリック損失のみで最適化しているため物理的に意味のあるガウシアンごとの運動を学習できず、運動がピクセル残差に過適合してしまうと主張する。
  • MoRGSは、疎なキー視点集合から得られる光学フローを軽量な運動手がかりとして用い、外観に基づく監督を超えて運動を正則化することで、ガウシアンごとの運動推論を明示的に追加する。
  • 疎なフロー監督への対応として、時間と視点にまたがる観測された光学フローに投影される3D運動を整合させる、ガウシアンごとの運動オフセット場を学習する。
  • さらに本手法は、動的なガウシアンと静的なガウシアンを区別するためのガウシアンごとの運動信頼度を導入し、時間的一貫性を改善するとともに、大きな運動のモデリングを高速化する。実験では、オンライン手法の中で最先端の画質と運動の忠実性が示される。

Abstract

動的シーンのオンライン再構成は、低遅延の制約のもとでストリーミングされる複数視点入力から学習することを目的としています。3Dガウススパッティングの高速な学習とリアルタイムレンダリング能力により、オンザフライの再構成が実用的になり、オンライン4D再構成が可能になりました。しかし、既存のオンライン手法は、その効率性や視覚的品質にもかかわらず、真のシーン動態を反映するガウスごとの運動(per-Gaussian motion)を学習できていません。明示的な運動の手がかりがない場合、外観と運動はフォトメトリック損失のもとでのみ最適化され、その結果、ガウスごとの運動が真の3D運動ではなくピクセル残差を追いかけてしまいます。これに対処するため、我々は、4D再構成の品質を向上させるためにガウスごとの運動を明示的にモデル化する、効率的なオンラインのガウスごとの運動推論フレームワークであるMoRGSを提案します。具体的には、疎な一連のキービューに対するオプティカルフローを、軽量な運動手がかりとして活用し、フォトメトリックな教師信号を超えてガウスごとの運動を正則化します。フロ―教師の疎性による不足を補うために、投影された3D運動と、ビューおよび時間にわたって観測されるフロ―との不一致を整合させる、ガウスごとの運動オフセット場を学習します。さらに、動的なガウスと静的なガウスを分離するための、ガウスごとの運動信頼度を導入し、ガウス属性の残差更新に重み付けすることで、静的領域における冗長な運動を抑制し、より良い時間的一貫性を実現するとともに、大きな運動のモデリングを加速します。広範な実験により、MoRGSがオンライン手法の中で最先端の再構成品質と運動の忠実度を達成しつつ、ストリーム可能な性能を維持することが示されます。