AI Navigate

Inst4DGS: マルチ動画ラベル置換学習を用いたインスタンス分解型4Dガウシアン・スプラッティング

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Inst4DGSは、動的シーンに対して長期の各ガウシアン軌跡を持つインスタンス分解型4Dガウシアン・スプラッティングフレームワークを提案する。
  • 独立に分割された複数視点動画間で一貫性のないインスタンスラベルに対処するため、各動画のラベル置換潜在変数と微分可能な Sinkhorn 層を用いて動画間マッチを学習し、一貫した同一性の保持を実現する。
  • 本手法は、各オブジェクトごとに低次元の運動基底を提供するインスタンス分解モーション・スキャフォールドを用いて、長期的な軌道最適化を支援する。
  • Panoptic Studio および Neural3DV データセットで、最先端のレンダリングおよびセグメンテーション品質を示し、PSNRが 26.10 から 28.36 へ、インスタンス mIoU が 0.6310 から 0.9129 へ改善した。

要約: 本研究では、長期にわたる各ガウスごとの軌道を持つ、インスタンス分解型の4D Gaussian Splatting(4DGS)アプローチ、Inst4DGSを提示します。ダイナミックな 4DGS は急速に発展している一方、インスタンス分解型 4DGS は、独立にセグメントされたマルチビュー動画間で一貫性のないインスタンスラベルを結びつける難しさのため、まだ十分には検討されていません。我々はこの課題に対処するため、ビデオごとのラベル置換潜在変数を導入して、微分可能な Sinkhorn 層を介してビデオ間のインスタンス対応を学習させ、一貫した同一性の保持を伴う直接的なマルチビュー監視を可能にします。この明示的なラベル整列は、鋭い決定境界と時系列的に安定した同一性をもたらし、同一性のドリフトを回避します。さらに効率を高めるべく、長期的な軌道最適化のためにオブジェクトごとに低次元の運動基底を提供するインスタンス分解型のモーション・スキャフォールドを提案します。Panoptic Studio および Neural3DV の実験は、Inst4DGS が追跡とインスタンス分解を同時にサポートしつつ、最先端のレンダリングおよびセグメンテーション品質を達成することを示しています。Panoptic Studio データセット上では、Inst4DGS は PSNR を 26.10 から 28.36 に、またインスタンス mIoU を 0.6310 から 0.9129 に改善し、最強のベースラインを上回ります。