頑健なマルチモーダル感情分析のためのEnhance-then-Balanceモダリティ協調

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モダリティの不均衡によって生じるマルチモーダル感情分析の頑健性問題に焦点を当てる。すなわち、支配的なテキスト/音声/映像の信号がより弱いモダリティを圧倒し、融合の品質を低下させうる。
  • 弱いモダリティの表現品質を高めるために、意味の分離とクロスモーダル強調を用いるEnhance-then-Balance Modality Collaboration(EBMC)フレームワークを提案する。
  • 優位性の影響を緩和するために、EBMCはEnergy-guided Modality Coordination(エネルギー誘導型モダリティ協調)を追加し、平衡を目的関数として、微分可能な暗黙的勾配の再バランスを行う。
  • さらに、Instance-aware Modality Trust Distillation(インスタンス認識型モダリティ信頼蒸留)により、ノイズがある場合やモダリティが欠落している場合でも頑健性を向上させる。これは、サンプルレベルの信頼性を推定して融合重みを適応させる。
  • 実験結果では、最先端または競争力のあるマルチモーダル感情分析の性能が報告され、特にモダリティ欠落シナリオで強い性能を示す。

要旨: マルチモーダル感情分析(MSA)は、異種のテキスト、音声、視覚信号を統合して人間の感情を推定します。近年の手法ではモーダル間の補完性を活用するものの、弱いモダリティを十分に活用しきれないことがしばしばあります。実際には、支配的なモダリティが非言語的なモダリティを上回ってしまい、モダリティ間の競合を引き起こし、全体としての寄与が制限されます。この不均衡は、融合の性能を低下させ、ノイズのある、またはモダリティが欠損した状況下での頑健性を損ないます。これに対処するために、本研究では新しいモデルである、Enhance-then-Balance Modality Collaboration フレームワーク(EBMC)を提案します。EBMCは、意味的な分離とモーダル間強化によって表現品質を向上させ、弱いモダリティを強化します。支配的なモダリティが他のモダリティを圧倒してしまうのを防ぐために、Energy-guided Modality Coordination(エネルギーに導かれたモダリティ協調)機構により、微分可能な均衡目的関数を通じて暗黙的な勾配の再バランスを実現します。さらに、Instance-aware Modality Trust Distillation(インスタンスに応じたモダリティ信頼度蒸留)によりサンプルレベルの信頼性を推定し、融合の重みを適応的に調整することで頑健性を確保します。大規模な実験の結果、EBMCは最先端または競争力のある結果を達成し、モダリティ欠損設定下でも強い性能を維持することが示されています。