From Synchrony to Sequence: 補間によるExo-to-Ego生成

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、同期された第三者視点の映像とカメラ姿勢(カメラポーズ)から、ファーストパーソン映像を合成する「exo-to-egoビデオ生成」に取り組むが、同期によって時空間的および幾何学的な不連続が生じ、標準ベンチマークの前提が崩れることを指摘する。
  • 同期に起因する「synchronization-induced jump(同期誘発ジャンプ)」を中核課題として特定し、Syn2Seq-Forcingを提案する。これは、ソース映像とターゲット映像の間を補間することで、1つの連続した信号を生成し、タスクを逐次的な信号モデリングとして捉え直すものである。
  • この逐次的な定式化により、Diffusion Forcing Transformers(DFoT)のような拡散ベースのシーケンスモデルが、より首尾一貫したフレーム間遷移を学習できる。
  • 実験では、姿勢を補間せずに映像のみを補間しても大きな改善が得られることが示され、姿勢補間が支配的な要因ではないことが示唆される。
  • 本手法は、Exo2EgoとEgo2Exoの双方を1つの連続したシーケンスモデルの中で扱える統一的枠組みとして提示され、クロスビュー合成に関する今後のより一般的な基盤を提供することを目指している。