AI Navigate

VFM-Recon: スケール整合性を備えたファウンデーションモデルの事前知識を活用し、クロスドメインのシーンレベルニューラル再構成を実現する

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

要点

  • VFMReconは、単眼動画からのクロスドメインデータを扱うために、転移可能なビジョンファウンデーションモデルの事前知識を活用し、スケール整合性を備えたシーンレベルのニューラル再構成フレームワークを提供します。
  • 軽量なスケール整列ステージが、体積融合におけるスケールの曖昧さを解消するため、マルチビュー間のスケール整合性を回復します。
  • 本手法は、再構成のために訓練された軽量のタスク特化アダプターを介して事前学習済みのVFM特徴を組み込み、クロスドメインの頑健性を維持します。
  • ScanNet(データ分布内)および分布外の TUM RGB-D、Tanks and Temples の評価は、最先端の性能を示し、Tanks and Temples は VGGT の 51.8 に対して 70.1 の F1 スコアを達成しました。