EmoMM:対立と欠落下におけるマルチモーダル感情認識のためのMLLMベンチマークと制御
arXiv cs.CV / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダル感情認識においてモダリティの整合・対立・欠落を明示的に含むベンチマーク「EmoMM」を提案し、現実的な条件下でのMLLMの挙動を体系的に調べます。
- 大規模な実験により、「Video Contribution Collapse(VCC)」と呼ばれる現象が見つかり、トークン冗長性が高くモダリティ嗜好が意思決定を偏らせると、MLLMが動画の根拠を過小評価しがちであることが示されます。
- 提案手法CHASE(Conflict-aware Head-level Attention Steering)は、バックボーンの再学習なしに、推論時に軽量な注意(attention)を制御してモダリティ対立を検出し、判断バイアスを抑えることで改善を狙います。
- 実験結果では、CHASEが複数の設定で一貫して性能を向上させ、対立や欠落を伴う複雑な感情推定シナリオでMLLMの信頼性を高めることが示されています。