GRVS：単眼による動的ビュー合成のための汎用的かつ反復的アプローチ

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、単眼の動的ビュー合成に取り組み、(1) 非常に動的な領域においてシーン固有の4D最適化手法が失敗する点、(2) 拡散ベースのカメラ制御手法が幾何学的整合性を生成できない点に焦点を当てる。
入力動画と目標動画の間に対する、無制限／非同期な対応付けのための反復ループ（1）と、カメラ運動とシーン運動を切り分けるための効率的な動的プレーンスウィープ機構（2）を備えた、新しい汎用化可能な反復フレームワークを提案する。
この手法は、静的領域と非常に動的な領域の両方にわたって整合性を維持しつつ、きめ細かな6自由度（6DoF）のカメラ制御を可能にすることを目指す。
著者らはUCSDで学習・評価し、より新しい単眼動的データセットであるKubric-4D-dyn（より長く、高解像度で、より複雑なシーケンスを含む）を導入し評価する。
報告された結果では、4つのGaussian Splattingベースのシーン固有ベースラインおよび2つの拡散ベース手法に対して、細かな幾何学的詳細の再構成が改善されたことが示される。

Abstract

動的シーンの単眼動画から新しい視点を合成することは、依然として困難な問題です。明示的なモーション事前知識によって4D表現を最適化するシーン固有の手法は、多視点情報を活用しにくい非常に動きの激しい領域ではしばしば破綻します。カメラ制御を大規模な事前学習済みモデルに統合する拡散ベースのアプローチは、見た目としてはもっともらしい動画を生成できますが、静的領域と動的領域の両方において幾何学的整合性が欠けることが頻繁にあります。これら両系統の手法はまた、相当量の計算資源を必要とします。静的な新規視点合成のための汎用化可能なモデルの成功に基づき、本研究では枠組みを動的入力へ適応し、新しいモデルを提案します。2つの主要な構成要素があります: (1) 入力動画と目標動画の間で、無制限かつ非同期の対応付けを可能にする反復ループ、(2) 動的入力に対してプレーンスイープ（平面スイープ）を効率的に用いることで、カメラ運動とシーン運動を分離し、きめ細かな、6自由度のカメラ制御を実現することです。私たちはUCSDデータセットおよび新しい単眼動的データセットであるKubric-4D-dynでモデルを学習・評価します。Kubric-4D-dynは、既存の代替手法よりも長く、高解像度のシーケンスを含み、さらに複雑なシーンドライナミクスを特徴としています。私たちのモデルは、4つのGaussian Splattingベースのシーン固有アプローチに加えて、静的領域と動的領域の両方にわたってきめ細かな幾何学的詳細を再構成する点で、2つの拡散ベースのアプローチよりも優れた性能を示します。