AI Navigate

MMOU: 長時間・複雑な現実世界の動画に対する大規模マルチタスク・オムニモーダル理解と推論ベンチマーク

arXiv cs.CL / 2026/3/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • MMOUは、長編コンテンツにおける視覚・音声・テキスト信号を横断したマルチモーダル理解と推論を評価するための、大規模なベンチマーク(15,000問、9,038本の現実世界ビデオ)を導入します。
  • 本ベンチマークは、モダリティ間および時間軸を跨いだ証拠の統合を必要とする13のスキルカテゴリにわたり、推論忠実度を高めるために専門家が注釈したマルチターンの質問を備えています。
  • 20モデル以上での評価は大きな性能差を示し、最高のクローズドソースモデルが64.2%の精度、トップのオープンソースモデルが46.8%であることから、長尺のオムニモーダル推論の難しさが浮き彫りになります。
  • この分析は体系的な失敗モードを特定し、現行のモデルがどこで崩れるかに関する実用的な洞察を提供し、今後の研究とモデル改善の方向性を概説します。

Abstract

マルチモーダル大規模言語モデル(MLLMs)は、孤立した状態で評価した場合、視覚および音声理解において高い性能を示しています。しかし、長く複雑な動画の中で、オムニモーダル(視覚、音声、テキスト)の信号を統合して推論する能力は、依然としてほとんど検証されていません。私たちは、これらの挑戦的な現実世界条件の下で、マルチモーダル理解と推論を体系的に評価するよう設計された新しいベンチマーク MMOU を導入します。MMOU は、長さがさまざまな 9,038 本のウェブ収集動画と組み合わせた 15,000 件の精選された質問で構成され、多様なドメインにまたがり、豊富で密接に結びついた音声・映像コンテンツを示します。ベンチマークは 13 の基本的なスキルカテゴリを網羅しており、いずれもモダリティ間および時間を横断して証拠を統合することを要求します。すべての質問は、専門のアノテーターによって複数回のやり取りを通じて手作業で注釈付けされており、高品質と推論の忠実性を保証します。私たちは MMOU 上で 20 件以上の最先端のオープンソースおよび独自のマルチモーダルモデルを評価します。結果は顕著な性能ギャップを露呈します。最良のクローズドソースモデルは精度がわずか 64.2% にしか達しません。一方、最も強力なオープンソースモデルはわずか 46.8% にとどまります。我々の結果は、長尺のオムニモーダル理解の課題を浮き彫りにし、現在のモデルが長尺のビデオでも基本的なスキルさえ適用できないことが頻繁にあることを明らかにします。詳細な分析を通じて、体系的な故障モードをさらに特定し、現在のモデルがどこでなぜ壊れるのかについての洞察を提供します。