OrbitNVS: 新規視点合成のためのビデオ拡散事前知識の活用

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

要点

  • OrbitNVSは新規視点合成をオービット動画生成タスクとして再定義し、事前学習済みのビデオ拡散事前知識を活用して未知の視点をより高品質に生成する。
  • この手法は動画モデルにカメラアダプターを追加し、合成中の視点間で正確なカメラ制御を可能にする。
  • 法線マップ生成ブランチと法線マップ特徴のアテンションガイド活用により、ビュー間の幾何学的一貫性が向上します。
  • ピクセル空間での教師付き学習を用いて、潜在空間の空間圧縮によるブレを低減し、GSOとOmniObject3DのベンチマークでPSNRの向上をより高く達成、特に単一視点シナリオで顕著。

要約: Novel View Synthesis (NVS) は、限られた数の既知のビューを与えられたときに、3Dオブジェクトの未知のビューを生成することを目的としています。既存の手法は、観測されていない領域の妥当なビューを合成するのにしばしば苦労し、特に単一ビュー入力の下で、幾何学的・外観的一貫性を維持することにも依然として課題があります。これらの問題に対処するため、OrbitNVS を提案します。OrbitNVS は NVS を軌道ビデオ生成タスクとして再定式化します。適切に設計されたモデルと訓練戦略を通じて、事前学習済みの動画生成モデルを NVS タスクへ適用し、その豊富な視覚的事前知識を活用して高品質なビュー合成を実現します。具体的には、正確なカメラ制御を可能にするために、ビデオモデルにカメラアダプタを組み込みます。3Dオブジェクトの二つの重要な性質、幾何と外観を向上させるため、法線マップ生成ブランチを設計し、法線マップの特徴を用いてアテンション機構を介してターゲットビューの合成を導くことで、幾何的一貫性を改善します。さらに、潜在空間の空間圧縮によって生じるぼやけた外観を緩和するために、ピクセル空間での教師信号を適用します。広範な実験により、OrbitNVS は GSO および OmniObject3D のベンチマークにおいて従来の手法を大幅に上回ることが示されており、特に難易度の高い単一ビュー設定では(例: +2.9 dB および +2.4 dB PSNR)顕著です。