Reshoot-Anything:イン・ザ・ワイルド動画のリシューティングのための自己教師ありモデル

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Reshoot-Anythingは、非剛体の動的シーンにおけるマルチビューのペアデータ不足を解消することを目的とした、「イン・ザ・ワイルド」動画のリシューティング向けの新しい自己教師ありモデルです。
  • インターネット規模の単眼モノラル動画を活用できるよう、擬似マルチビューのトリプレット(ソース動画・合成ジオメトリアンカー・ターゲット動画)を生成して学習をスケールさせます。
  • 具体的には、単一入力動画から滑らかなランダムウォークに基づくクロップ軌道を抽出し、ソース視点とターゲット視点を作ります。
  • アンカーは、密なトラッキングフィールドでソースの最初のフレームを順方向ワープして作成し、推論時に想定される歪んだポイントクラウド入力を模擬します。
  • クロップを独立に行うことで空間の不整合や人工的な遮蔽が生じるため、モデルは欠損した高忠実度テクスチャを時間・視点をまたいで再投影し、暗黙に4Dの時空間構造を学習することが求められます。

要旨: 非剛体シーンにおける対応するマルチビュー対データの深刻な不足が、動的動画のリショット(撮り直し)に対する精密なカメラ制御のボトルネックとなっています。私たちは、この制約を、インターネット規模の単眼動画を活用できる、非常にスケーラブルな自己教師ありフレームワークによって克服します。中核となる貢献は、ソース動画、幾何学的アンカー、ターゲット動画から成る、疑似マルチビューの学習用トリプレットを生成することです。これを、単一の入力動画から、ソース視点とターゲット視点として機能する、異なる滑らかなランダムウォークに基づくクロップ軌道を抽出することで実現します。アンカーは、密なトラッキング・フィールドを用いてソースの最初のフレームをフォワードワープすることで合成生成され、推論時に想定される歪んだ点群入力を効果的にシミュレートします。独立なクロッピング戦略により空間的な不整合と人工的なオクルージョンが生じるため、モデルは現在のソースフレームから単純に情報を複製できません。その代わり、ソース動画から異なる時刻と視点にまたがって欠落した高精細なテクスチャを能動的にルーティングし、再投影することで、4Dの時空間構造を暗黙に学習することが強制されます。推論では、最小限に適応した拡散トランスフォーマーが、4D点群から導出したアンカーを用いることで、最先端の時間的一貫性、頑健なカメラ制御、複雑な動的シーンにおける高精細な新規視点合成を達成します。