DF3DV-1K: 囲い込み(ディストラクタ)なしの新規視点合成のための大規模データセットとベンチマーク

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、囲い込み(ディストラクタ)なしの新規視点合成のための大規模な実世界データセットであるDF3DV-1Kを提案し、シーンごとにクリーン画像と散らかり(クラッタ)のある画像のペアを提供する。
  • DF3DV-1Kには、1,048シーンと、128種類のディストラクタに対応する89,924枚の一般向けカメラ画像が含まれており、161の屋内/屋外のシーンテーマにまたがる。
  • 厳選されたサブセットであるDF3DV-41は、特に困難な条件下で、ディストラクタなしの放射場(radiance-field)手法を体系的にストレステストすることを目的として設計されている。
  • 著者らは、ディストラクタなしの放射場手法として近年の9手法に加え、3Dガウススプラッティングをベンチマークし、どのアプローチがより頑健で、どのシナリオが最も難しいかを報告する。
  • また、放射場の改善のために拡散(ディフュージョン)ベースの2Dエンハンサーを微調整することで、後段の応用例も示しており、DF3DV-41のような保持用セットで平均0.96 dBのPSNR向上と0.057のLPIPS改善を得ている。

概要: 照度フィールド(radiance fields)の進展により、写実的な新規視点合成が可能になりました。いくつかの領域では、包括的なベンチマークを支え、シーン固有の再構成を超えた進歩を促進するために、大規模な実世界データセットが開発されてきました。しかし、ディストラクタ(注意をそらす要素)のない照度フィールドでは、シーンごとにクリーンで散らかった(cluttered)画像を備えた大規模データセットが依然として不足しており、開発が制限されています。このギャップに対処するため、私たちはDF3DV-1Kを導入します。これは、1,048シーンから成る大規模な実世界データセットで、ベンチマーク用に各シーンがクリーンおよび散らかった画像セットを提供します。データセット全体には、カジュアルな撮影を模倣するためにコンシューマーカメラで撮影された89,924枚の画像が含まれており、屋内および屋外環境にまたがって、128種類のディストラクタタイプと161種類のシーントピック(scene themes)がカバーされています。体系的に設計された41シーンの厳選サブセットDF3DV-41は、困難な状況下でのディストラクタフリー照度フィールド手法の頑健性を評価するために用意されています。DF3DV-1Kを用いて、私たちはディストラクタフリー照度フィールドの最近の9つの手法と3D Gaussian Splattingをベンチマークし、最も頑健な手法と最も困難なシナリオを特定します。ベンチマークを超えて、拡散ベースの2D enhancerを微調整して照度フィールド手法を改善するという、DF3DV-1Kの応用例も示します。保持された評価セット(例: DF3DV-41)およびOn-the-goデータセットで、平均で0.96 dBのPSNR向上と0.057のLPIPS低下を達成します。DF3DV-1Kがディストラクタフリーの視覚の発展を促し、シーン固有のアプローチを超えた進歩を後押しすることを期待しています。