MMOU: 長時間・複雑な現実世界の動画に対する大規模マルチタスク・オムニモーダル理解と推論ベンチマーク
arXiv cs.CL / 2026/3/17
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MMOUは、長編コンテンツにおける視覚・音声・テキスト信号を横断したマルチモーダル理解と推論を評価するための、大規模なベンチマーク(15,000問、9,038本の現実世界ビデオ)を導入します。
- 本ベンチマークは、モダリティ間および時間軸を跨いだ証拠の統合を必要とする13のスキルカテゴリにわたり、推論忠実度を高めるために専門家が注釈したマルチターンの質問を備えています。
- 20モデル以上での評価は大きな性能差を示し、最高のクローズドソースモデルが64.2%の精度、トップのオープンソースモデルが46.8%であることから、長尺のオムニモーダル推論の難しさが浮き彫りになります。
- この分析は体系的な失敗モードを特定し、現行のモデルがどこで崩れるかに関する実用的な洞察を提供し、今後の研究とモデル改善の方向性を概説します。

