会話におけるマルチモーダル感情認識のための、動的フュージョン認識型グラフ畳み込みニューラルネットワーク

arXiv cs.AI / 2026/3/25

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、テキスト・音声・画像といったモダリティを用いた会話におけるマルチモーダル感情認識(MERC)向けの、動的フュージョン認識型グラフ畳み込みニューラルネットワークDF-GCNを提案する。
  • 従来のGCNベースのMERC手法が抱える主要な制約として、感情カテゴリ間で固定のマルチモーダル融合パラメータを用いることによって、感情ごとの性能におけるトレードオフが生じ得る点を回避する。
  • DF-GCNは、GCNに常微分方程式(ODE)を組み込み、発話相互作用グラフ上で感情的依存関係が時間とともにどのように動的に進化するかをモデル化する。
  • Global Information Vector(GIV)から導出したプロンプトを用いて、マルチモーダル特徴の動的な融合の仕方を誘導し、推論時に発話ごとへパラメータを調整できるようにする。
  • 公開されているマルチモーダル会話データセット2つでの実験では、動的融合メカニズムと強化された汎化性能により、性能が向上することが示される。

Abstract

会話におけるマルチモーダル感情認識(MERC)は、発話の相互作用中に話者が発する感情を、複数のモダリティ(例:テキスト、音声、画像など)から識別し、理解することを目的とします。既存研究では、話者間の依存関係をモデル化することで、GCNがMERCの性能を向上できることが示されています。しかし、既存の手法は通常、異なる感情タイプに対してマルチモーダル特徴を処理するために固定パラメータを用い、モダリティ間の融合のダイナミクスを無視します。これにより、複数の感情カテゴリ間で性能のバランスを取らざるを得なくなり、特定の感情に対するモデルの性能が制限されます。そこで本研究では、会話におけるマルチモーダル感情特徴の頑健な認識のための、動的融合を意識したグラフ畳み込みニューラルネットワーク(DF-GCN)を提案します。具体的には、DF-GCNはグラフ畳み込みネットワーク(GCN)に常微分方程式を組み込み、発話相互作用ネットワーク内における感情的依存関係の動的な性質を{capture}し、さらに、発話のグローバル情報ベクトル(GIV)から生成されるプロンプトを用いて、マルチモーダル特徴の動的な融合を導きます。これにより、各発話特徴を処理する際に本モデルがパラメータを動的に変化させることができ、推論段階では異なる感情カテゴリに対して異なるネットワークパラメータを適用できるようになります。その結果、より柔軟な感情分類が実現され、モデルの汎化能力が強化されます。提案するDF-GCNモデルが優れた性能を提供し、導入した動的融合メカニズムの恩恵を大きく受けることを、2つの公開されているマルチモーダル会話データセットで行った包括的な実験が{confirm}しています。