3Dガウススプラッティングによる複数人・複数物体のレンダリング

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「複数人・複数物体(MHMO)」のレンダリングを扱い、ロボティクスやVR/ARのデジタルツインのような用途に向けて、疎な視点入力から相互に作用する複数の人と物体を含むダイナミックなシーンを再構成することを目的とする。
  • 2つの主要な課題を特定する。すなわち、相互の強い遮蔽下で各インスタンスに対して視点整合的な表現を維持すること、そしてインスタンス間相互作用によって生じる組合せ的な依存関係を明示的にモデル化すること、である。
  • これに対処するため、著者らはMM-GSを提案する。MM-GSは3Dガウススプラッティングに基づく階層的フレームワークであり、各インスタンスの整合的な表現を得るためのインスタンスごとの多視点融合ステップを備える。
  • またMM-GSは、グローバルなシーン・グラフを用いて関係性を推論し、インスタンス属性を洗練させることで、接触や相互作用に伴う微妙な効果をより適切に捉えるシーンレベルのインスタンス相互作用モジュールも導入する。
  • 難易度の高いデータセットでの実験により、本手法が最先端性能を達成しており、強力なベースラインを上回って、より高精細な表現とインスタンス間のよりもっともらしい接触を実現することが示される。

Abstract

疎な視点入力から、相互に作用する複数の人間と物体による動的シーンを再構成することは、ロボティクスおよびVR/AR向けの高精細なデジタルツインを作成するために不可欠であり、同時に重要な挑戦課題です。本問題を私たちは Multi-Human Multi-Object(MHMO)レンダリングと呼びます。この課題には、2つの大きな障壁があります。すなわち、深刻な相互遮蔽のもとで、個々のインスタンスに対して視点整合性のある表現を実現すること、そして、相互作用から生じる複雑で組合せ的な依存関係を明示的にモデル化することです。これらの課題を克服するために、3D Gaussian Splatting に基づく新しい階層型フレームワーク MM-GS を提案します。本手法ではまず、Per-Instance Multi-View Fusion モジュールを用いて、利用可能なすべての視点にまたがる視覚情報を集約し、各インスタンスのための頑健で一貫した表現を確立します。続いて、Scene-Level Instance Interaction モジュールがグローバルなシーングラフ上で動作し、すべての参加者間の関係を推論することで、それぞれの属性を洗練させ、相互作用によって生じる微妙な効果を捉えます。難度の高いデータセットに対する大規模な実験により、本手法が強力なベースラインを大幅に上回り、高精細なディテールと妥当なインスタンス間の接触を伴う最先端の結果を実現することを示します。