マルチモーダル会話の感情認識に向けた、リレーショナルグラフ駆動の差分デノイジングおよび拡散アテンション融合

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、環境雑音によって音声/映像の特徴が劣化し、さらにモダリティ間の品質のばらつきが融合結果を偏らせうるマルチモーダル会話感情認識（MCER）を対象とする。
注意マップの差分を算出する差分Transformerを用いて、時間的に一貫した信号の強調と、音声・映像の両方における雑音抑制を行う、関係性を考慮したデノイジングおよび拡散アテンション融合モデルを提案する。
話者依存の感情的依存関係を、モダリティ内およびモダリティ間の相互作用を通じてモデル化するために、モダリティ固有およびモダリティ横断の関係サブグラフを構築する。
自己注意を用いて、拡散によって得られる視聴覚情報をテキストストリームへ適応的に拡散させる、テキストガイド付きクロスモーダル拡散メカニズムを提案し、より頑健で意味的に整合した融合を目指す。

日経XTECH

Simon Willison's Blog

Dev.to

Dev.to

Dev.to