AI Navigate

SocialOmni: オムニモーダルモデルにおける音声・映像の社会的相互作用をベンチマークする

arXiv cs.AI / 2026/3/18

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、話者識別、割り込みのタイミング、自然な割り込み生成の3つの側面にまたがるオムニモーダルモデルの社会的相互作用を評価する新しいベンチマークSocialOmniを紹介します。
  • 厳格な時間的・文脈的制約を伴う2,000の知覚サンプルと、209件の診断データセット、さらに頑健性を検証するための音声-映像の不整合シナリオを含みます。
  • 主要な12のオムニモーダルLLMの評価は、社会的相互作用能力に大きなばらつきがあることと、知覚の正確さと割り込みの質の間に乖離が生じていることを示しています。
  • 結果は、理解中心の指標だけでは対話的な社会的能力を特徴づけるには不十分であり、今後のオムニモーダルLLMにおいて知覚と相互作用を統合する必要性を強調しています。
  • SocialOmniの診断結果は、オムニモーダルモデルにおける知覚と相互作用をより統合したものへと、次の研究開発の実用的な手掛かりを提供します。

要旨: オムニモーダル大規模言語モデル(OLMs)は、音声、視覚、テキストをネイティブに統合することにより、人間と機械の相互作用を再定義します。しかし、既存のOLMベンチマークは静的で精度中心のタスクに留まり、自然な対話における動的な手掛かりを理解する基本能力である社会的相互作用の評価における重要なギャップを放置しています。これを目的として、会話的相互作用の評価を三つの核次元に沿って運用する総合ベンチマークSocialOmniを提案します:(i) 発話者の分離と同定(誰が話しているか)、(ii) 中断タイミングの制御(いつ介入するか)、(iii) 自然な中断生成(中断をどのように表現するか)。SocialOmniは、知覚サンプル2,000件と、厳密な時間的・文脈的制約を伴う209件の対話生成インスタンスからなる品質管理型診断セットを特徴とし、モデルの堅牢性を検証するための統制された音声・映像の不整合シナリオを補完します。私たちは12の主要OLMをベンチマークし、それらの社会的相互作用能力にモデル間で顕著なばらつきがあることを明らかにしました。さらに、分析は、モデルの知覚精度と文脈に適した中断を生成する能力の間に顕著な乖離があることを示しており、理解中心の指標だけでは会話の社会的適性を十分に特徴づけることはできないことを示しています。より励みになることに、SocialOmniからのこれらの診断は、将来のOLMにおける知覚と対話の分断を埋めるための具体的な指針を提供します。