Geo-EVS: Geometry-Conditioned Extrapolative View Synthesis for Autonomous Driving

arXiv cs.CV / 4/9/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 研究は、車載カメラ以外の異種センサから標準化した仮想視点を生成することで、複数カメラリグへの依存を下げる「外挿的ノベルビュー合成」の課題(軌道外での幾何支持不足と教師信号不足)に対処することを目的としています。
  • 提案手法Geo-EVSは、(1) fine-tuned VGGTで着色点群を再構成し、観測・仮想ターゲット双方へ再投影して幾何条件マップを作るGeometry-Aware Reprojection(GAR)と、(2) 再投影由来のアーティファクトマスクを学習へ注入して欠落した幾何支持下での構造復元を学習させるArtifact-Guided Latent Diffusion(AGLD)から構成されます。
  • 学習時に「軌道外の条件欠陥」に明示的に曝す設計が、推論時の外挿で品質が劣化する問題への主要な工夫として示されています。
  • 評価では、密な外挿視点の教師が無い状況を想定し、LiDAR-Projected Sparse-Reference(LPSR)プロトコルを用いて幾何・画質の両面を検証しています。
  • Waymo上で、特に高角度・低カバレッジ条件でスパース視点合成の品質と幾何精度が向上し、さらに下流の3D検出性能も改善する結果が報告されています。

Abstract

Extrapolative novel view synthesis can reduce camera-rig dependency in autonomous driving by generating standardized virtual views from heterogeneous sensors. Existing methods degrade outside recorded trajectories because extrapolated poses provide weak geometric support and no dense target-view supervision. The key is to explicitly expose the model to out-of-trajectory condition defects during training. We propose Geo-EVS, a geometry-conditioned framework under sparse supervision. Geo-EVS has two components. Geometry-Aware Reprojection (GAR) uses fine-tuned VGGT to reconstruct colored point clouds and reproject them to observed and virtual target poses, producing geometric condition maps. This design unifies the reprojection path between training and inference. Artifact-Guided Latent Diffusion (AGLD) injects reprojection-derived artifact masks during training so the model learns to recover structure under missing support. For evaluation, we use a LiDAR-Projected Sparse-Reference (LPSR) protocol when dense extrapolated-view ground truth is unavailable. On Waymo, Geo-EVS improves sparse-view synthesis quality and geometric accuracy, especially in high-angle and low-coverage settings. It also improves downstream 3D detection.