AMB-DSGDN: 適応的モダリティ・バランスド・ダイナミック・セマンティック・グラフ・ディファレンシャル・ネットワークによるマルチモーダル感情認識
arXiv cs.AI / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキスト・音声・視覚モダリティを用いたマルチモーダル対話感情認識のために、Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network (AMB-DSGDN) を提案する。
- それは自己話者内および話者間の接続を持つモダリティ固有のサブグラフを構築して、自己連続性と対話相手間の感情依存性を捉える。
- 差分グラフ注意機構を導入し、2つのアテンションマップを対比して共通ノイズを打ち消しつつモダリティ固有かつ文脈関連の信号を保持する。
- 相対的寄与度に基づいて各モダリティのドロップアウト確率を推定する適応的モダリティバランス機構を設計する。
本文: arXiv:2603.10043v1 アナウンスタイプ: cross
要旨:マルチモーダル対話感情認識は、テキスト、視覚、および音声のモダリティを統合することで感情の手掛かりを捉えます。しかし、既存のアプローチは感情依存性のモデリングとマルチモーダル表現の学習において依然として顕著な制約を抱えています。 一方で、マルチモーダル特徴内の冗長またはノイズ信号を効果的にフィルタリングできず、話者間および話者内の感情状態の動的な進化を正確に捉えることを妨げます。さらに、マルチモーダル特徴学習の過程で、支配的なモダリティが融合プロセスを圧倒する傾向があり、それによって音声や視覚など非支配的モダリティの補完的貢献が抑制され、全体の認識性能が制約されます。これらの課題に対処するため、Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network (AMB-DSGDN) を提案します。具体的には、まずテキスト、音声、視覚の各モダリティに対してモダリティ固有のサブグラフを構築します。各モダリティは自己連続性と話者間の感情依存性を捉える自己話者内および対話者間のグラフを含みます。これらのサブグラフの上に、差分グラフアテンション機構を導入します。これは、二つのアテンションマップ集合間の差を計算します。これらのアテンション分布を明示的に対比することにより、共有ノイズパターンを打ち消しつつ、モダリティ固有かつ文脈に関連する信号を保持し、より純粋で識別性の高い感情表現を生み出します。加えて、感情モデリングにおける相対的な寄与度に基づいて各モダリティのドロップアウト確率を推定する適応的モダリティバランス機構を設計します。
