AI Navigate

VisionNVS: 仮想シフト・パラダイム下での自己教師付きインペインティングによる新規視点合成

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • VisionNVSは、仮想シフト・パラダイムの下で自己教師付きインペインティングとしてタスクを再定義することにより、自動運転における新規視点合成のためのカメラのみのフレームワークを提示します。
  • Virtual-Shift戦略は、単眼深度の代理データを用いて遮蔽パターンをシミュレートし、それを元の視点へマッピングすることで、生データ画像からのピクセル単位の教師信号を可能にし、ドメイン間のギャップを縮小します。
  • Pseudo-3D Seam Synthesis法は、訓練中に隣接カメラのデータを集約して、現実世界のフォトメトリックな差異と較正誤差をモデル化することで、空間的一貫性を向上させます。
  • 実験では、VisionNVSがLiDAR依存のベースラインと比較して、幾何学的忠実度と視覚品質の点で優れた性能を示し、スケーラブルな自動運転シミュレーションの実現を支援します。

概要:自動運転のための新規視点合成(NVS)における根本的なボトルネックは、新規軌道に対する本質的な監視データのギャップである。推論時には未見のビューの合成を課される一方で、学習時にはこれらのシフトした姿勢に対するグラウンドトゥルース画像が欠如している。
本論文では、カメラのみを用いるフレームワークVisionNVSを提案する。これは視点合成を、本質的に解が定まらない外挿問題から自己教師付きのインペインティングタスクへと根本的に再定式化する。
「``Virtual-Shift''戦略を導入することにより、単眼深度の代理指標を用いて遮蔽パターンをシミュレートし、それらを元のビューにマッピングします。」
このパラダイムの転換により、生データとして記録された画像をピクセル単位で正確な教師信号として利用でき、従来のアプローチに内在するドメインギャップを実質的に排除します。
さらに、Pseudo-3D Seam Synthesis戦略を通じて空間的一貫性にも対処します。これは、学習中に隣接カメラからの視覚データを統合し、実世界のフォトメトリックな差異や較正誤差を明示的にモデル化します。
実験の結果、VisionNVSはLiDAR依存のベースラインと比較して幾何学的忠実度と視覚品質の点で優れており、スケーラブルな運転シミュレーションに向けた堅牢な解決策を提供します。