EmoMM:対立と欠落下におけるマルチモーダル感情認識のためのMLLMベンチマークと制御

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダル感情認識においてモダリティの整合・対立・欠落を明示的に含むベンチマーク「EmoMM」を提案し、現実的な条件下でのMLLMの挙動を体系的に調べます。
  • 大規模な実験により、「Video Contribution Collapse(VCC)」と呼ばれる現象が見つかり、トークン冗長性が高くモダリティ嗜好が意思決定を偏らせると、MLLMが動画の根拠を過小評価しがちであることが示されます。
  • 提案手法CHASE(Conflict-aware Head-level Attention Steering)は、バックボーンの再学習なしに、推論時に軽量な注意(attention)を制御してモダリティ対立を検出し、判断バイアスを抑えることで改善を狙います。
  • 実験結果では、CHASEが複数の設定で一貫して性能を向上させ、対立や欠落を伴う複雑な感情推定シナリオでMLLMの信頼性を高めることが示されています。

Abstract

マルチモーダル感情認識(MER)は、現実世界のやり取りを解釈するうえで重要である。マルチモーダル大規模言語モデル(MLLM)はMERにおける有望性を示してきたが、モダリティの競合や欠落がある場合の内部の意思決定メカニズムは、依然としてほとんど解明されていない。本論文では、これらの振る舞いを体系的に調査するために、モダリティ整合、競合、欠落の各サブセットを備えた包括的ベンチマークであるEmoMMを提案する。大規模な評価を通じて、Video Contribution Collapse(VCC)という現象を発見する。これは、トークン冗長性が高くモダリティの嗜好が強いために、MLLMが動画の根拠を周縁化するものである。これに対処するため、Conflict-aware Head-level Attention Steering(CHASE)を提案する。これは軽量な仕組みであり、モダリティ競合を検出し、再学習なしで推論時の注意(アテンション)を誘導する。これにより、バックボーンを再学習することなく意思決定の偏りを効果的に抑制する。実験結果は、CHASEがさまざまな設定において一貫して性能を向上させ、複雑な情動シナリオにおけるMLLMの信頼性を大幅に高めることを示している。

EmoMM:対立と欠落下におけるマルチモーダル感情認識のためのMLLMベンチマークと制御 | AI Navigate