EmoTrans:マルチモーダルLLMにおける感情遷移の理解・推論・予測を測るベンチマーク

arXiv cs.CV / 2026/4/28

📰 ニュースSignals & Early TrendsModels & Research

要点

  • この論文では、感情を静的に認識するのではなく「動的なプロセス」として理解することを評価するための新しいベンチマークEmoTransを提案しています。
  • EmoTransは、12の実世界シナリオにまたがる1,000本の手作業で注釈付けされたマルチモーダル動画クリップと、微細な評価のための3,000件超のタスク別QAペアを含みます。
  • 感情の変化検出、状態同定、遷移推論、次の感情予測を段階的に難しくする4つのタスク(ECD、ESI、ETR、NEP)で評価を行います。
  • 18の最先端MLLMをEmoTransで評価した結果、粗いレベルの感情変化検出では比較的良い性能が見られる一方、細かな感情ダイナミクスのモデリングは依然として難しく、特に複数人の状況が大きな課題であることが示されています。
  • 将来の研究のために、ベンチマーク、評価プロトコル、コードを公開しています(提示されたGitHubリポジトリ)。

要旨: 近年のマルチモーダル大規模言語モデル(MLLMs)は、知覚・推論・生成において強力な能力を示し、ソーシャルロボットやヒューマンコンピュータインタラクションなど、人の感情理解が不可欠なアプリケーションでますます活用されている。しかし、既存のベンチマークは主に感情理解を静的な認識問題として定式化しており、現在のMLLMが、感情を動的なプロセスとして理解し、状態間で移り変わり、多様な社会的文脈の中で展開することができるのかどうかは、依然としてほとんど不明である。このギャップを埋めるために、本研究ではマルチモーダル動画における感情ダイナミクス理解を評価するためのベンチマークであるEmoTransを提案する。EmoTransは、実世界の12のシナリオをカバーし、慎重に収集され手動で注釈付けされた1,000本の動画クリップを含み、さらにきめ細かな評価のための、タスク固有の3,000件超の質問応答(QA)ペアを提供する。ベンチマークでは、4つのタスク、すなわち感情変化検出(Emotion Change Detection: ECD)、感情状態の同定(Emotion State Identification: ESI)、感情遷移推論(Emotion Transition Reasoning: ETR)、次の感情予測(Next Emotion Prediction: NEP)を導入し、粗い検出からより深い推論と予測へと進む段階的な評価フレームワークを構成する。EmoTrans上で最先端のMLLM 18モデルについて包括的な評価を行い、2つの主要な知見を得た。第一に、現在のMLLMは感情の変化検出のような粗い粒度では相対的により良い性能を示すものの、感情ダイナミクスのきめ細かなモデリングでは依然として苦戦している。第二に、社会的に複雑な設定、特に複数人シナリオは依然として大きく難しく、推論志向のバリアントも一貫して明確な改善につながっていない。今後の研究を促進するために、本ベンチマーク、評価プロトコル、コードをhttps://github.com/Emo-gml/EmoTrans にて公開する。