MMOU: 長時間・複雑な現実世界の動画に対する大規模マルチタスク・オムニモーダル理解と推論ベンチマーク

arXiv cs.CL / 2026/3/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MMOUは、長編コンテンツにおける視覚・音声・テキスト信号を横断したマルチモーダル理解と推論を評価するための、大規模なベンチマーク（15,000問、9,038本の現実世界ビデオ）を導入します。
本ベンチマークは、モダリティ間および時間軸を跨いだ証拠の統合を必要とする13のスキルカテゴリにわたり、推論忠実度を高めるために専門家が注釈したマルチターンの質問を備えています。
20モデル以上での評価は大きな性能差を示し、最高のクローズドソースモデルが64.2%の精度、トップのオープンソースモデルが46.8%であることから、長尺のオムニモーダル推論の難しさが浮き彫りになります。
この分析は体系的な失敗モードを特定し、現行のモデルがどこで崩れるかに関する実用的な洞察を提供し、今後の研究とモデル改善の方向性を概説します。

Abstract

マルチモーダル大規模言語モデル（MLLMs）は、孤立した状態で評価した場合、視覚および音声理解において高い性能を示しています。しかし、長く複雑な動画の中で、オムニモーダル（視覚、音声、テキスト）の信号を統合して推論する能力は、依然としてほとんど検証されていません。私たちは、これらの挑戦的な現実世界条件の下で、マルチモーダル理解と推論を体系的に評価するよう設計された新しいベンチマーク MMOU を導入します。MMOU は、長さがさまざまな 9,038 本のウェブ収集動画と組み合わせた 15,000 件の精選された質問で構成され、多様なドメインにまたがり、豊富で密接に結びついた音声・映像コンテンツを示します。ベンチマークは 13 の基本的なスキルカテゴリを網羅しており、いずれもモダリティ間および時間を横断して証拠を統合することを要求します。すべての質問は、専門のアノテーターによって複数回のやり取りを通じて手作業で注釈付けされており、高品質と推論の忠実性を保証します。私たちは MMOU 上で 20 件以上の最先端のオープンソースおよび独自のマルチモーダルモデルを評価します。結果は顕著な性能ギャップを露呈します。最良のクローズドソースモデルは精度がわずか 64.2% にしか達しません。一方、最も強力なオープンソースモデルはわずか 46.8% にとどまります。我々の結果は、長尺のオムニモーダル理解の課題を浮き彫りにし、現在のモデルが長尺のビデオでも基本的なスキルさえ適用できないことが頻繁にあることを明らかにします。詳細な分析を通じて、体系的な故障モードをさらに特定し、現在のモデルがどこでなぜ壊れるのかについての洞察を提供します。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

日経XTECH

MMOU: 長時間・複雑な現実世界の動画に対する大規模マルチタスク・オムニモーダル理解と推論ベンチマーク

要点

Abstract

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ