SceneScribe-1M：包括的な幾何学的・意味論的アノテーションを備えた大規模ビデオデータセット

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

SceneScribe-1M は、豊富な意味情報と時空間情報を兼ね備えた、野外（in-the-wild）動画100万本を含む大規模なマルチモーダル・ビデオデータセットとして導入されます。
各動画には、詳細なテキスト記述に加えて、正確なカメラパラメータ、密な深度マップ、整合的な3Dポイント追跡がアノテーションされており、統一的な3D知覚とビデオ理解を支援します。
このデータセットは、知覚・再構成タスク（例：単眼深度推定、シーン再構成、動的ポイント追跡）と、テキストからビデオを生成するなどの生成タスク（任意でカメラ制御が可能）という両面でベンチマークされています。
著者らは、動的な3Dシーンを同時に知覚し、制御可能で現実的な動画を生成できるモデルの研究を加速するために、SceneScribe-1M をオープンソース化する予定です。

要旨: 3D幾何学的知覚とビデオ合成の収束により、セマンティック情報と時空間情報の両方に富んだ大規模なビデオデータへの前例のない需要が生まれました。既存のデータセットは、3D理解またはビデオ生成のいずれかの分野を前進させてきましたが、両領域を大規模に支える統一的なリソースを提供する点では大きな隔たりが残っています。このギャップを埋めるために、我々は新たな大規模マルチモーダル・ビデオデータセットであるSceneScribe-1Mを導入します。これは、ありのままの環境（in-the-wild）から収集した100万本のビデオで構成され、各ビデオは、詳細なテキスト記述、正確なカメラパラメータ、密な深度マップ、そして一貫した3Dポイント追跡（トラック）によって、入念に注釈付けされています。SceneScribe-1Mの汎用性と価値を示すため、単眼深度推定、シーン再構成、動的ポイント追跡といった幅広い下流タスクにわたってベンチマークを確立します。また、カメラ制御の有無にかかわらず、テキストからビデオを生成するような生成タスクも対象とします。SceneScribe-1Mをオープンソース化することで、包括的なベンチマークと研究の触媒を提供し、動的な3D世界を知覚できるだけでなく、制御可能で現実的なビデオコンテンツを生成できるモデルの開発を促進することを目指します。

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

SceneScribe-1M：包括的な幾何学的・意味論的アノテーションを備えた大規模ビデオデータセット

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透