動的な一人称視点動画からの静的シーン再構成
arXiv cs.CV / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長尺の一人称視点(egocentric)動画から3Dの静的シーンを再構成することを扱う。高速なカメラ移動や動く手によって、MapAnythingのような既存の静的再構成手法が失敗する問題に取り組む。
- 動的な手前(フォアグラウンド)を抑制するマスク対応の再構成パイプラインを提案し、注意(attention)層において手の動きが学習された静的マップを汚染しないようにする。
- この方法では、チャンク分割による再構成に、ポーズグラフのつなぎ込み(stitching)を組み合わせることで、グローバルな整合性を維持し、長期的な軌跡ドリフトを低減する。
- HD-EPICおよび屋内ドローンのデータセットでの実験により、単純なベースラインよりも絶対軌跡誤差が改善し、静的ジオメトリもよりクリーンになることが示される。これにより、基盤モデル風のアプローチを動的な一人称視点シーンへ実用的に拡張できる可能性が示唆される。
