概要: 映像理解の急速な進展により、既存のベンチマークは次第に飽和しつつあり、リーダーボードのスコアが過大に見積もられている一方で、現実のモデルの能力はそれに見合っていないという重要な食い違いが露呈しています。この拡大するギャップに対処するため、我々は映像理解の頑健性と忠実性を厳密に評価するための包括的ベンチマークであるVideo-MME-v2を導入します。モデル能力を体系的に評価するため、動画の理解に関する複雑さを段階的に引き上げる extbf{漸進的な三層階層構造(progressive tri-level hierarchy)}を設計します。これは、多点の視覚情報集約から、時間的ダイナミクスのモデリング、そして最終的には複雑なマルチモーダル推論へと段階的に難度が増していきます。さらに、従来の「設問ごとの正解率」とは対照的に、 extbf{グループベースの非線形評価(group-based non-linear evaluation)}戦略を提案し、関連する複数の問いにまたがる一貫性と、多段推論における整合性の双方を強制します。断片的、あるいは当て推量に基づく正しさを罰し、妥当な推論によって裏付けられた回答にのみ評価点を与えます。データ品質を保証するため、Video-MME-v2は、12人のアノテータと50人の独立した査読者を含む、厳格に管理された人手によるアノテーション・パイプラインによって構築されています。
extbf{3,300人時}の人的作業と最大 extbf{5ラウンド}の品質保証に支えられ、Video-MME-v2は最も権威ある映像ベンチマークの一つとして機能することを目指しています。大規模な実験により、現在の最良モデルであるGemini-3-Proと人間の専門家の間には大きなギャップがあることが明らかになり、さらに、視覚情報集約と時間的モデリングにおける誤りが増幅して上位の推論を制限する、明確な階層的ボトルネックも見出されます。また、思考に基づく推論はテキスト手がかりへの依存度が高く、字幕があることで性能が向上する一方で、純粋に視覚的な状況では時に性能を低下させることも分かりました。これらの制約を明らかにすることで、Video-MME-v2は次世代の映像MLLMの開発に向けた、要求水準の高い新たなテストベッドを確立します。
Video-MME-v2:包括的なビデオ理解のためのベンチマークの次の段階に向けて
arXiv cs.CV / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、既存のベンチマークが飽和しつつある状況を背景に、ビデオ理解における現実世界での頑健性と推論の忠実性を測定するための新しいベンチマーク「Video-MME-v2」を提案する。
- ゲームの難易度を、視覚情報の集約から時間的ダイナミクスのモデリング、そして複雑なマルチモーダル推論へと段階的に引き上げる、段階的な三層階層構造を用いる。
- 単純な設問ごとの正答率の代わりに、整合性と一貫した複数ステップの推論を強制するため、グループベースの非線形評価を提案し、断片的または推測に基づく解答を罰する。
- ベンチマークはデータ品質を重視しており、制御された人手によるアノテーションプロセス(12名のアノテータ、50名の独立した査読者、最大5ラウンドのQAを含む3,300人時)を採用する。
- 実験により、現在の最良結果(例:Gemini-3-Pro)と人間の専門家との間に大きな性能ギャップがあることが示され、初期の集約や時間的誤りが後続の推論を制限する階層的ボトルネックを特定する(字幕やテキスト手がかりの影響も含む)。




