LiveStre4m:未位置合わせ(未ポーズ)のマルチビュー動画からの新規視点をフィードフォワードにライブ配信する
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsModels & Research
要点
- LiveStre4mは、位置合わせされていない疎なマルチビュー動画からのリアルタイム新規視点合成(NVS)を目標とし、従来の動的シーン手法がグラウンドトゥルースのカメラパラメータと遅い最適化を必要とするという課題に取り組む。
- 本システムは、キーフレームの3Dシーン再構成にマルチビュー・ビジョントランスフォーマーを用い、さらに配信に向けた時間的整合性を維持するための拡散トランスフォーマー補間モジュールと組み合わせる。
- カメラポーズ推定器は、RGB画像からカメラ姿勢だけでなく内在パラメータも直接推定し、既知の校正への依存を不要にする。
- この手法は、1024×768解像度で1フレームあたり約0.07秒を達成し、同期された入力ストリームを2本といった少数でも動作可能である。最適化ベースのアプローチに対して、実行時間で桁違いに優れている。
- 本論文はGitHubでコードを公開し、実運用可能なライブ新規視点合成システムをより現実的にすることを目指している。



