VideoZeroBench: 時空間エビデンス検証によって動画MLLMの限界を探る

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長尺動画の質問応答に向けた新しい階層型ベンチマーク「VideoZeroBench」を提案し、答えの正確さだけに依存するのではなく、時空間エビデンスを検証する。
13の領域にまたがる手動で注釈付けされた500の質問が含まれており、それぞれに正解予測に必要なエビデンスとして、時間的区間（temporal intervals）と空間的バウンディングボックス（spatial bounding boxes）が対応づけられている。
評価プロトコルは5段階で構成され、回答生成と時間的グラウンディング／空間的グラウンディングを段階的に制約を厳しくしながら分離し、モデルが正しくローカライズできなければならない範囲を徐々に絞り込む。
結果は、表面的な正解率と、エビデンスに基づく推論との間に大きなギャップがあることを示している。たとえばGemini-3-ProはLevel-3で17%未満の正解であり、Level-5では、回答および精密な時空間ローカライズの両方が要求されると、1%を超えるモデルはほぼ存在しない。
著者らは追加分析（例：最小のエビデンス区間に対する性能、アトミックな能力）を提示しており、今後のグラウンディングされた動画推論研究を支えるために、ベンチマークとコードを公開する計画である。