AI Navigate

Ego-1K -- 自己視点用の大規模マルチビュー動画データセット

arXiv cs.CV / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • Ego-1K は、4 カメラの VR ヘッドセットを取り囲む 12 カメラのリグで撮影された約 1,000 本に上る時刻同期済みの自己視点マルチビュー動画の大規模コレクションで、ニューラル3D動画合成と動的シーン理解を進展させることを目的としています。
  • 論文は、自己視点のシーン再構成手法のベンチマークを可能にし、巨大な視差とエゴモーションから生じる課題に対処するためのリグ設計・データ処理・キャリブレーションについて説明します。
  • このデータセットは、さまざまな設定における手の動作と手と物体の相互作用を強調しており、近接するダイナミックなオブジェクトを扱う際に、既存の3D/4Dビュー合成手法が直面する困難を反映しています。
  • HuggingFace データセットとして公開されており、多カメラスマートグラスがより一般的になる将来の研究を支援します。

要約: 私たちは Ego-1K を提示します。時間同期されたエゴセントリック・マルチビュー動画の大規模コレクションで、ニューラル3D動画合成とダイナミックシーン理解を進展させることを目的としています。データセットには、ユーザーが着用する4カメVRヘッドセットを取り囲む12台の同期カメラを搭載したカスタムリグで撮影された、約1,000本の短いエゴセントリック動画が含まれます。シーン内容は、さまざまな設定における手の動作と手と物体の相互作用に焦点を当てています。リグ設計、データ処理、そして較正を説明します。私たちのデータセットは、複数のカメラを備えたスマートグラスが至る所に普及する中で、エゴセントリックなシーン再構成手法を評価する新しい方法を可能にします。既存の3Dおよび4Dの新規視点合成手法に対して、本データセットは大きな視差と近接するダイナミックオブジェクトおよびリグのエゴ運動によって生じる画像モーションのため、独自の課題を提示することを私たちの実験は示しています。本データセットは、この挑戦的な領域における今後の研究を支援します。以下のリンクから入手できます: https://huggingface.co/datasets/facebook/ego-1k

返却形式: {"translated": "翻訳されたHTML"}