MVPBench:マルチモーダル・ビデオ理解のためのマルチビデオ認識評価ベンチマーク
arXiv cs.CV / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、単一ビデオや画像のみのベンチマークを超えてマルチモーダル・ビデオ理解を検証することを目的とした新しいマルチビデオ認識評価ベンチマークであるMVPBenchを紹介する。
- MVPBenchは多様な視覚領域にまたがる14のサブタスクを含み、2.7K本の既存データセット由来のビデオクリップに加えて手作業でアノテーションしたクリップから構築された5K件の質問応答テストが含まれる。
- ベンチマークは、意思決定を支えるために、モデルがビデオ系列からどれだけ関連情報を抽出できるかを評価することに焦点を当てている。
- 広範な評価の結果、現在のモデルはマルチビデオ入力に対して大きく苦戦しており、マルチビデオ理解能力における主要なギャップが浮き彫りになっている。
- 著者らは、MVPBenchをマルチビデオ認識研究と評価の今後の発展を促すものとして位置づけている。

