要旨: 通常の、分単位のスケールで、時間的に連続し、手を加えていない、正面向きの都市部ダッシュボード映像セグメントを、公開されているYouTube動画から選別・分割した、手動でキュレーションされたデータセットであるCROWD(City Road Observations With Dashcams)を提案します。CROWDは、日常的な走行を優先し、事故、事故の直後、または編集されたものやインシデントに焦点を当てたコンテンツを明示的に除外することで、ドメインをまたぐ頑健性とインタラクション分析を支えることを目的としています。公開データには、20,275.56時間にまたがる51,753件のセグメント記録(42,032本の動画)が含まれ、6つの居住可能な大陸(アフリカ、アジア、ヨーロッパ、北アメリカ、南アメリカ、オセアニア)すべてにまたがる238の国と地域において、7,103の命名された居住地を対象としています。セグメント単位の手動ラベルとして、時間帯(日中または夜間)および車両タイプが提供されます。ベンチマークの参入障壁を下げるために、YOLOv11xで生成された全80のMS-COCOクラスについて、セグメントごとのCSV(機械生成による検出)と、セグメントローカルのマルチオブジェクト追跡(BoT-SORT)も併せて提供します。たとえば person(人物)、bicycle(自転車)、motorcycle(オートバイ)、car(乗用車)、bus(バス)、truck(トラック)、traffic light(信号機)、stop sign(停止標識)などです。CROWDは、動画識別子とセグメント境界、および導出された注釈として配布されるため、基となる動画を再配布することなく、再現可能な研究が可能です。
連続都市型ダッシュカム走行のグローバル・データセット
arXiv cs.CV / 2026/4/2
📰 ニュースTools & Practical UsageModels & Research
要点
- 本論文は、公開されているYouTube動画から抽出した、連続かつ前方を向く都市部ダッシュカム走行セグメントのための、手動でキュレーションされたドメイン横断データセット「CROWD」を紹介する。
- CROWDには、238の国・地域すべての「6つの居住可能大陸」上で、7,103の居住地域にまたがる合計20,275.56時間分のセグメント記録51,753件が含まれており、時間帯(日中/夜間)および車両タイプのラベルが付与されている。
- このデータセットは、日常的な走行に焦点を当てることで頑健性とインタラクション分析を目的とし、事故、事故の直後、またはインシデントに焦点を当てた編集コンテンツを明示的に除外している。
- ベンチマークを支援するため、リリースではセグメントごとのCSVを提供し、YOLOv11xによる全80のMS-COCOクラスに対する機械生成検出結果と、BoT-SORTによるセグメント局所のマルチオブジェクト・トラックを含めている。
- CROWDは、動画識別子とセグメント境界に基づいて配布され、派生注釈を付与することで、元のソース動画を再配布することなく再現可能な研究を可能にすることを目指している。


