会話におけるマルチモーダル感情認識のための、動的フュージョン認識型グラフ畳み込みニューラルネットワーク
arXiv cs.AI / 2026/3/25
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、テキスト・音声・画像といったモダリティを用いた会話におけるマルチモーダル感情認識(MERC)向けの、動的フュージョン認識型グラフ畳み込みニューラルネットワークDF-GCNを提案する。
- 従来のGCNベースのMERC手法が抱える主要な制約として、感情カテゴリ間で固定のマルチモーダル融合パラメータを用いることによって、感情ごとの性能におけるトレードオフが生じ得る点を回避する。
- DF-GCNは、GCNに常微分方程式(ODE)を組み込み、発話相互作用グラフ上で感情的依存関係が時間とともにどのように動的に進化するかをモデル化する。
- Global Information Vector(GIV)から導出したプロンプトを用いて、マルチモーダル特徴の動的な融合の仕方を誘導し、推論時に発話ごとへパラメータを調整できるようにする。
- 公開されているマルチモーダル会話データセット2つでの実験では、動的融合メカニズムと強化された汎化性能により、性能が向上することが示される。
