Daily-Omni: モーダリティ間の時系列アライメントによる音声・映像推論へ

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Daily-Omniは、音声と映像を横断する時系列推論を要する684本の実世界動画と1,197問を特徴とする、新しいクロスモーダル音声・映像QAベンチマークです。
  • 著者らは、注釈付け、クロスモーダル一貫性の精緻化、時系列アライメントの抽出、情報漏洩のフィルタリングのための半自動パイプラインを開発し、それに続く人間による検証を通じて、スケーラブルなベンチマーク構築を可能にします。
  • 24の基盤モデルを、37のモデル-モダリティ設定(Audio+Video / Audio-only / Video-only / Text-only)で評価し、市販の単一モーダルモデルから構成された、訓練不要のモジュラー診断ベースラインを提供します。
  • 結果は、多くのエンドツーエンドのマルチモーダルLLMsがアライメントが重要な問題に苦戦していることを示しており、堅牢なクロスモーダル時系列アライメントがマルチモーダルAIにとって依然として解決されていない課題であることを浮き彫りにしています。
近年のマルチモーダル大規模言語モデル(MLLMs)は、視覚と音声のベンチマークに対して個別には有望な性能を示しています。しかし、これらのモデルがクロスモーダル情報を同期的に処理する能力は、依然として十分に検証されていません。Daily-Omniを導入します。これは、684本の実世界動画と1,197問を特徴とし、6つのタスクファミリーにまたがり、明示的にクロスモーダル時系列推論を要求する選択式のオーディオ-ビジュアルQAベンチマークです。スケーラブルなベンチマーク構築を支援するため、注釈付け、クロスモーダル一貫性の精緻化、時系列アライメントの抽出、テキストのみの情報漏洩フィルタリングのための半自動パイプラインを開発し、その後人間による検証を行います。さらに、診断評価スイートを提供し、37のモデル-モダリティ設定(Audio+Video / Audio-only / Video-only / Text-only)で24の基盤モデルを広範に評価します。最後に、訓練不要のモジュラー診断ベースラインを含め、既製の単一モーダルモデルを組み合わせて診断ベースラインとして機能させ、明示的な時系列アライメント信号が性能に与える影響を示します。結果は、多くのエンドツーエンドのマルチモーダルLLMsがアライメントが重要な問題にまだ苦戦しており、堅牢なクロスモーダル時系列アライメントがマルチモーダルAIにとって依然として重要な未解決の課題であることを示唆しています。