Daily-Omni: モーダリティ間の時系列アライメントによる音声・映像推論へ

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Daily-Omniは、音声と映像を横断する時系列推論を要する684本の実世界動画と1,197問を特徴とする、新しいクロスモーダル音声・映像QAベンチマークです。
著者らは、注釈付け、クロスモーダル一貫性の精緻化、時系列アライメントの抽出、情報漏洩のフィルタリングのための半自動パイプラインを開発し、それに続く人間による検証を通じて、スケーラブルなベンチマーク構築を可能にします。
24の基盤モデルを、37のモデル-モダリティ設定（Audio+Video / Audio-only / Video-only / Text-only）で評価し、市販の単一モーダルモデルから構成された、訓練不要のモジュラー診断ベースラインを提供します。
結果は、多くのエンドツーエンドのマルチモーダルLLMsがアライメントが重要な問題に苦戦していることを示しており、堅牢なクロスモーダル時系列アライメントがマルチモーダルAIにとって依然として解決されていない課題であることを浮き彫りにしています。

近年のマルチモーダル大規模言語モデル（MLLMs）は、視覚と音声のベンチマークに対して個別には有望な性能を示しています。しかし、これらのモデルがクロスモーダル情報を同期的に処理する能力は、依然として十分に検証されていません。Daily-Omniを導入します。これは、684本の実世界動画と1,197問を特徴とし、6つのタスクファミリーにまたがり、明示的にクロスモーダル時系列推論を要求する選択式のオーディオ-ビジュアルQAベンチマークです。スケーラブルなベンチマーク構築を支援するため、注釈付け、クロスモーダル一貫性の精緻化、時系列アライメントの抽出、テキストのみの情報漏洩フィルタリングのための半自動パイプラインを開発し、その後人間による検証を行います。さらに、診断評価スイートを提供し、37のモデル-モダリティ設定（Audio+Video / Audio-only / Video-only / Text-only）で24の基盤モデルを広範に評価します。最後に、訓練不要のモジュラー診断ベースラインを含め、既製の単一モーダルモデルを組み合わせて診断ベースラインとして機能させ、明示的な時系列アライメント信号が性能に与える影響を示します。結果は、多くのエンドツーエンドのマルチモーダルLLMsがアライメントが重要な問題にまだ苦戦しており、堅牢なクロスモーダル時系列アライメントがマルチモーダルAIにとって依然として重要な未解決の課題であることを示唆しています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Daily-Omni: モーダリティ間の時系列アライメントによる音声・映像推論へ

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer