MVPBench:マルチモーダル・ビデオ理解のためのマルチビデオ認識評価ベンチマーク

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、単一ビデオや画像のみのベンチマークを超えてマルチモーダル・ビデオ理解を検証することを目的とした新しいマルチビデオ認識評価ベンチマークであるMVPBenchを紹介する。
  • MVPBenchは多様な視覚領域にまたがる14のサブタスクを含み、2.7K本の既存データセット由来のビデオクリップに加えて手作業でアノテーションしたクリップから構築された5K件の質問応答テストが含まれる。
  • ベンチマークは、意思決定を支えるために、モデルがビデオ系列からどれだけ関連情報を抽出できるかを評価することに焦点を当てている。
  • 広範な評価の結果、現在のモデルはマルチビデオ入力に対して大きく苦戦しており、マルチビデオ理解能力における主要なギャップが浮き彫りになっている。
  • 著者らは、MVPBenchをマルチビデオ認識研究と評価の今後の発展を促すものとして位置づけている。

Abstract

大規模言語モデル(LLM)の急速な進歩により、マルチモーダルLLM(MLLMs)への関心が高まり、知覚および理解能力を評価するためのベンチマークの開発が促進されてきました。しかし、既存のベンチマークは静止画像または単一の動画に限定されており、複数の動画にまたがる複雑な相互作用が見落とされています。このギャップを埋めるために、マルチビデオ知覚評価ベンチマーク(MVPBench)を提案します。MVPBenchは、多様な視覚領域にまたがる14のサブタスクを備え、モデルが動画シーケンスから関連する情報を抽出して、情報に基づく意思決定を行う能力を評価することを目的としています。MVPBenchには、既存のデータセットから出典を持つ動画クリップと、人手でアノテーションされたクリップを含む2.7K本の動画クリップに基づく5K件の質問応答テストが含まれます。大規模な評価の結果、現行のモデルは複数動画の入力を効果的に処理することが難しく、マルチビデオ理解における重大な制約が浮き彫りになりました。私たちは、MVPBenchがマルチビデオ知覚の発展を牽引することを期待しています。