さまざまなコンピュータビジョンタスク向けの、ニア・ロースト(ほぼ生)トーキングヘッド動画データセット
arXiv cs.CV / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自然環境下で805人の参加者から446台の市販ウェブカメラを用いて収集した847本の収録(約212分)から成る、ニア・ローストのトーキングヘッド動画データセットを導入し、オープンソースとして公開する。
- すべての動画はロスレスコーデックであるFFV1で保存されており、MOS(主観的品質評価)に基づく知覚品質アノテーションに加えて、MOSの分散の64.4%を説明する10個の品質トークンを含む。
- 著者らは、内容条件として「オリジナル」「背景のぼかし」「背景の置換」の3種類をカバーする120クリップの層化ベンチマーク用サブセットを提供する。
- H.264/H.265/H.266/AV1に対するコーデック効率の実験では、H.264に比べて最大71.3%のVMAF BD-rate削減が示される。さらに、エンコーダ選択と背景処理/コンテンツ種別の両方が圧縮性能に影響することを示す強い相互作用が観察される。
- 本データセットは、従来のトーキングヘッド用ウェブカメラデータセットに比べて大幅に大きく、高い忠実度を備えた代替として位置付けられており、リアルタイム通信向けの動画圧縮・強調(エンハンスメント)モデルの学習およびベンチマークに利用することを目的としている。




