EmoTrans：マルチモーダルLLMにおける感情遷移の理解・推論・予測を測るベンチマーク

arXiv cs.CV / 2026/4/28

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

この論文では、感情を静的に認識するのではなく「動的なプロセス」として理解することを評価するための新しいベンチマークEmoTransを提案しています。
EmoTransは、12の実世界シナリオにまたがる1,000本の手作業で注釈付けされたマルチモーダル動画クリップと、微細な評価のための3,000件超のタスク別QAペアを含みます。
感情の変化検出、状態同定、遷移推論、次の感情予測を段階的に難しくする4つのタスク（ECD、ESI、ETR、NEP）で評価を行います。
18の最先端MLLMをEmoTransで評価した結果、粗いレベルの感情変化検出では比較的良い性能が見られる一方、細かな感情ダイナミクスのモデリングは依然として難しく、特に複数人の状況が大きな課題であることが示されています。
将来の研究のために、ベンチマーク、評価プロトコル、コードを公開しています（提示されたGitHubリポジトリ）。

要旨: 近年のマルチモーダル大規模言語モデル（MLLMs）は、知覚・推論・生成において強力な能力を示し、ソーシャルロボットやヒューマンコンピュータインタラクションなど、人の感情理解が不可欠なアプリケーションでますます活用されている。しかし、既存のベンチマークは主に感情理解を静的な認識問題として定式化しており、現在のMLLMが、感情を動的なプロセスとして理解し、状態間で移り変わり、多様な社会的文脈の中で展開することができるのかどうかは、依然としてほとんど不明である。このギャップを埋めるために、本研究ではマルチモーダル動画における感情ダイナミクス理解を評価するためのベンチマークであるEmoTransを提案する。EmoTransは、実世界の12のシナリオをカバーし、慎重に収集され手動で注釈付けされた1,000本の動画クリップを含み、さらにきめ細かな評価のための、タスク固有の3,000件超の質問応答（QA）ペアを提供する。ベンチマークでは、4つのタスク、すなわち感情変化検出（Emotion Change Detection: ECD）、感情状態の同定（Emotion State Identification: ESI）、感情遷移推論（Emotion Transition Reasoning: ETR）、次の感情予測（Next Emotion Prediction: NEP）を導入し、粗い検出からより深い推論と予測へと進む段階的な評価フレームワークを構成する。EmoTrans上で最先端のMLLM 18モデルについて包括的な評価を行い、2つの主要な知見を得た。第一に、現在のMLLMは感情の変化検出のような粗い粒度では相対的により良い性能を示すものの、感情ダイナミクスのきめ細かなモデリングでは依然として苦戦している。第二に、社会的に複雑な設定、特に複数人シナリオは依然として大きく難しく、推論志向のバリアントも一貫して明確な改善につながっていない。今後の研究を促進するために、本ベンチマーク、評価プロトコル、コードをhttps://github.com/Emo-gml/EmoTrans にて公開する。

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

note

Takahiro.K ｜元SEコンサルのAI対話ログ

note

AIエージェントは、人間のように組織を運営することができるか

note

Geminiは現代の駆け込み寺 !? 悩み相談室!?

note

ホモデウスか、それとも人間か：相棒AIはどっちを選ぶ？

note

EmoTrans：マルチモーダルLLMにおける感情遷移の理解・推論・予測を測るベンチマーク

要点

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の駆け込み寺 !? 悩み相談室!?

ホモデウスか、それとも人間か：相棒AIはどっちを選ぶ？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜ 元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の 駆け込み寺 !? 悩み相談室!?

ホモデウスか、それとも人間か ：相棒AIはどっちを選ぶ？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Takahiro.K ｜元SEコンサルのAI対話ログ

Geminiは現代の駆け込み寺 !? 悩み相談室!?

ホモデウスか、それとも人間か：相棒AIはどっちを選ぶ？