SceneScribe-1M:包括的な幾何学的・意味論的アノテーションを備えた大規模ビデオデータセット

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsModels & Research

要点

  • SceneScribe-1M は、豊富な意味情報と時空間情報を兼ね備えた、野外(in-the-wild)動画100万本を含む大規模なマルチモーダル・ビデオデータセットとして導入されます。
  • 各動画には、詳細なテキスト記述に加えて、正確なカメラパラメータ、密な深度マップ、整合的な3Dポイント追跡がアノテーションされており、統一的な3D知覚とビデオ理解を支援します。
  • このデータセットは、知覚・再構成タスク(例:単眼深度推定、シーン再構成、動的ポイント追跡)と、テキストからビデオを生成するなどの生成タスク(任意でカメラ制御が可能)という両面でベンチマークされています。
  • 著者らは、動的な3Dシーンを同時に知覚し、制御可能で現実的な動画を生成できるモデルの研究を加速するために、SceneScribe-1M をオープンソース化する予定です。

要旨: 3D幾何学的知覚とビデオ合成の収束により、セマンティック情報と時空間情報の両方に富んだ大規模なビデオデータへの前例のない需要が生まれました。既存のデータセットは、3D理解またはビデオ生成のいずれかの分野を前進させてきましたが、両領域を大規模に支える統一的なリソースを提供する点では大きな隔たりが残っています。このギャップを埋めるために、我々は新たな大規模マルチモーダル・ビデオデータセットであるSceneScribe-1Mを導入します。これは、ありのままの環境(in-the-wild)から収集した100万本のビデオで構成され、各ビデオは、詳細なテキスト記述、正確なカメラパラメータ、密な深度マップ、そして一貫した3Dポイント追跡(トラック)によって、入念に注釈付けされています。SceneScribe-1Mの汎用性と価値を示すため、単眼深度推定、シーン再構成、動的ポイント追跡といった幅広い下流タスクにわたってベンチマークを確立します。また、カメラ制御の有無にかかわらず、テキストからビデオを生成するような生成タスクも対象とします。SceneScribe-1Mをオープンソース化することで、包括的なベンチマークと研究の触媒を提供し、動的な3D世界を知覚できるだけでなく、制御可能で現実的なビデオコンテンツを生成できるモデルの開発を促進することを目指します。