動的な一人称視点動画からの静的シーン再構成

arXiv cs.CV / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長尺の一人称視点(egocentric)動画から3Dの静的シーンを再構成することを扱う。高速なカメラ移動や動く手によって、MapAnythingのような既存の静的再構成手法が失敗する問題に取り組む。
  • 動的な手前(フォアグラウンド)を抑制するマスク対応の再構成パイプラインを提案し、注意(attention)層において手の動きが学習された静的マップを汚染しないようにする。
  • この方法では、チャンク分割による再構成に、ポーズグラフのつなぎ込み(stitching)を組み合わせることで、グローバルな整合性を維持し、長期的な軌跡ドリフトを低減する。
  • HD-EPICおよび屋内ドローンのデータセットでの実験により、単純なベースラインよりも絶対軌跡誤差が改善し、静的ジオメトリもよりクリーンになることが示される。これにより、基盤モデル風のアプローチを動的な一人称視点シーンへ実用的に拡張できる可能性が示唆される。

Abstract

視点中心(エゴセントリック)の動画は、急速なカメラ移動や頻繁な動的インタラクションにより、3D再構成に固有の課題をもたらします。MapAnythingのような最先端の静的再構成システムは、これらの状況ではしばしば劣化し、移動する手によって引き起こされる壊滅的な軌跡ドリフトや「ゴースト」状のジオメトリに悩まされます。本研究では、このギャップを埋めるために、静的再構成バックボーンを長尺のエゴセントリック動画へ適応させる堅牢なパイプラインを提案します。提案手法は、注意(attention)層において動的な前景を明示的に抑制する、マスクを意識した再構成メカニズムを導入し、手のアーティファクトが静的マップを汚染するのを防ぎます。さらに、ポーズグラフのステッチングを用いたチャンク化された再構成戦略により、グローバルな整合性を保証し、長期的なドリフトを解消します。HD-EPICおよび屋内ドローンのデータセットでの実験により、提案パイプラインは絶対軌跡誤差を大幅に改善し、単純なベースラインと比較して視覚的にクリーンな静的ジオメトリを生成することが示され、基盤モデルの能力を動的な一人称シーンへ効果的に拡張できることを確認しました。