MVPBench：マルチモーダル・ビデオ理解のためのマルチビデオ認識評価ベンチマーク

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、単一ビデオや画像のみのベンチマークを超えてマルチモーダル・ビデオ理解を検証することを目的とした新しいマルチビデオ認識評価ベンチマークであるMVPBenchを紹介する。
MVPBenchは多様な視覚領域にまたがる14のサブタスクを含み、2.7K本の既存データセット由来のビデオクリップに加えて手作業でアノテーションしたクリップから構築された5K件の質問応答テストが含まれる。
ベンチマークは、意思決定を支えるために、モデルがビデオ系列からどれだけ関連情報を抽出できるかを評価することに焦点を当てている。
広範な評価の結果、現在のモデルはマルチビデオ入力に対して大きく苦戦しており、マルチビデオ理解能力における主要なギャップが浮き彫りになっている。
著者らは、MVPBenchをマルチビデオ認識研究と評価の今後の発展を促すものとして位置づけている。

Abstract

大規模言語モデル（LLM）の急速な進歩により、マルチモーダルLLM（MLLMs）への関心が高まり、知覚および理解能力を評価するためのベンチマークの開発が促進されてきました。しかし、既存のベンチマークは静止画像または単一の動画に限定されており、複数の動画にまたがる複雑な相互作用が見落とされています。このギャップを埋めるために、マルチビデオ知覚評価ベンチマーク（MVPBench）を提案します。MVPBenchは、多様な視覚領域にまたがる14のサブタスクを備え、モデルが動画シーケンスから関連する情報を抽出して、情報に基づく意思決定を行う能力を評価することを目的としています。MVPBenchには、既存のデータセットから出典を持つ動画クリップと、人手でアノテーションされたクリップを含む2.7K本の動画クリップに基づく5K件の質問応答テストが含まれます。大規模な評価の結果、現行のモデルは複数動画の入力を効果的に処理することが難しく、マルチビデオ理解における重大な制約が浮き彫りになりました。私たちは、MVPBenchがマルチビデオ知覚の発展を牽引することを期待しています。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

日立製作所と日立エナジー、エネルギーインフラ向けAIサービスを提供

日経XTECH

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

Reddit r/artificial

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

Dev.to

Googleの2026年3月スパムアップデート：SEOへの影響と今やるべきこと | MKDM

Dev.to

MVPBench：マルチモーダル・ビデオ理解のためのマルチビデオ認識評価ベンチマーク

要点

Abstract

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日立製作所と日立エナジー、エネルギーインフラ向けAIサービスを提供

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

Googleの2026年3月スパムアップデート：SEOへの影響と今やるべきこと | MKDM

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer