要旨: 多数かつ微妙なマルチモーダルの手がかりを知覚すること、観測できない心的状態や関係を推論すること、他者の行動を動的に予測することを含む社会的相互作用を理解することは、人と機械のインタラクションを実現するための基盤です。マルチモーダル大型言語モデル(MLLM)の急速な進歩があるにもかかわらず、社会的相互作用の豊かで多面的な性質が、その社会的相互作用能力を総合的に評価し導くベンチマークの開発を妨げてきました。社会行動を理解するための基礎的枠組みとして広く見なされてきた社会関係理論に基づき、我々は SIV-Bench を提供します。これは、社会シーン理解(SSU)、社会状態推論(SSR)、社会ダイナミクス予測(SDP)にわたって MLLM の能力を体系的に評価するための新しい動画ベンチマークです。SIV-Bench は、もともと収集された 2,792 本の動画クリップと、人間—LLM の協調パイプラインから導出された 5,455 本の細心に生成された質問—回答ペアを備えています。これには、14 種類の典型的な関係、さまざまな動画の長さ、ジャンル、提示スタイル、言語的・文化的背景が含まれます。包括的な実験の結果、主要な MLLM は SSU では比較的良好に機能する一方で、SSR と SDP では弱いことが示されます。関係推論における体系的な混同が、主要なボトルネックであることが分かりました。さらに、推論プロセスを詳しく分析したところ、MLLM の最適でない性能は、人間の考えとの不整合と推論の深さの不足に起因することが明らかになりました。加えて、音声と字幕が、推論を要する SSR と SDP に役立つことも見出しました。合わせて、SIV-Bench は、進歩を測定し、限界を明らかにし、将来の研究をより社会的に知的な MLLM へと導くための統一的なテストベッドを提供します。我々はプロジェクトの Web サイトでデータセットとコードを公開します:https://kfq20.github.io/sivbench。
SIV-Bench:社会的相互理解と推論のためのビデオベンチマーク
arXiv cs.CV / 2026/4/29
💬 オピニオンSignals & Early TrendsModels & Research
要点
- この論文では、マルチモーダル大規模言語モデルの「社会的相互理解」を評価するための新しいビデオベンチマークSIV-Benchを提案し、社会的シーン理解・社会的状態推論・社会ダイナミクス予測の3領域を一貫してテストします。
- SIV-Benchには2,792本の動画クリップと、ヒューマン–LLMの協働パイプラインで作成した5,455件の質問–回答ペアが含まれ、関係タイプ、動画の長さ、ジャンル、提示スタイル、言語・文化的背景など多様な条件をカバーします。
- 主要なMLLMに対する実験では、社会的シーン理解は比較的良好だが、社会的状態推論と社会ダイナミクス予測は明確に弱いことが示されます。
- 著者らはボトルネックとして、関係推論における体系的な混乱(関係推定の失敗)を挙げ、性能不十分の要因を人間の思考とのズレと推論の深さ不足にさらに分解して説明します。
- また、推論負荷の高いSSRおよびSDPでは音声と字幕が有効であることを見出し、研究の進展に向けてデータセットとコードを公開しています。



