RayMap3R: ダイナミック3D再構成のための推論時RayMap

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、RGB動画からリアルタイムにシーンの幾何とカメラ姿勢を共同推定する、学習不要のストリーミング型動的3D再構成フレームワーク「RayMap3R」を提案する。
  • 移動物体によって生じるアーティファクトやドリフトに対し、推論時のデュアルブランチ方式で、RayMapベースの予測と画像ベースの予測を対比して動的領域を検出することで対応する。
  • RayMap3Rは、メモリ更新時に動的な干渉を抑制し、時間経過に伴う再構成の安定性を高める。
  • さらに、リセット時のメトリック整合と、状態を考慮した平滑化を追加して、メトリック一貫性を維持し、予測されるカメラ軌道を安定化する。
  • 実験では、複数の動的シーンのベンチマークにおいて、既存のストリーミング手法に対する最先端の性能が報告されている。

概要: ストリーミング・フィードフォワードによる3D再構成は、RGB画像からシーンの幾何形状とカメラ姿勢をリアルタイムに共同推定できるようにします。しかし、明示的な動的推論がない場合、ストリーミングモデルは移動物体の影響を受け、アーティファクトやドリフトが生じることがあります。本研究では、動的シーン再構成のためのトレーニング不要のストリーミングフレームワークであるRayMap3Rを提案します。RayMapに基づく予測が静止シーンに対するバイアスを示すことを観察し、この性質を動的領域の同定のための内部的手がかりとして利用します。この観察に基づき、RayMapの予測と画像の予測を対比することで動的領域を特定し、メモリ更新中のそれらの干渉を抑制する二分岐推論方式を構築します。さらに、リセット指標の整合と、状態を考慮した平滑化を導入することで、計量整合性を維持し、予測軌道を安定化させます。提案手法は、複数のベンチマークにわたる動的シーン再構成において、ストリーミング手法の中で最先端の性能を達成します。