制約のない画像からの一般化可能なスパースビュー3D再構成

arXiv cs.CV / 2026/5/1

📰 ニュースModels & Research

共有:

要点

本論文は、変化する照明や一時的な遮蔽物がある現実環境において、制約の少ない（未配置の）スパースビュー画像から3Dを復元する難題に取り組み、従来手法がしばしばシーンごとの最適化を要し、スパースビューで破綻しやすい点を指摘しています。
提案は GenWildSplat で、未配置のインターネット画像から深度、カメラパラメータ、3Dガウシアンを正準（canonical）空間で推定し、シーンごとのテスト時最適化を一切必要としないフィードフォワード型の枠組みです。
GenWildSplat は学習済みの幾何学的事前知識に加え、目標の照明条件に合わせて見え（appearance）を調整する appearance adapter と、一時的な対象を扱うためのセマンティックセグメンテーションを用います。
合成データと実データの両方でカリキュラム学習を行い、照明や遮蔽物の多様性に対する一般化性能を高めています。
PhotoTourism と MegaScenes での評価では、リアルタイム推論（テスト時最適化なし）を実現しつつ、フィードフォワードレンダリング品質で最先端の結果を示し、シーン特化ベースラインに比べて強い汎化性を強調しています。

AI-SCHOLAR

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA