CAGMamba:マルチモーダル感情分析のためのコンテキスト認識型ゲート付きクロスモーダルMambaネットワーク

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、対話ベースのマルチモーダル感情分析(テキスト+音声)向けに、コンテキスト認識型のゲート付きクロスモーダルMambaネットワークであるCAGMambaを提案する。
  • 二次計算量を持つTransformerによるクロスモーダル注意機構の代わりに、CAGMambaはMambaベースの設計を用い、コンテキストおよび現在の発話の特徴を時間順に並べた二値(binary)系列へ変換することで、明示的な時間構造を与える。
  • さらに、学習可能なゲーティングによって融合の質とモダリティの保持のバランスをより良く取るため、クロスモーダル処理とユニモーダル処理を組み合わせたゲート付きクロスモーダルMambaネットワーク(GCMN)を追加する。
  • モデルはテキスト、音声、融合予測にまたがる3分岐のマルチタスク目的で学習し、対話ターンをまたいだ感情の推移のモデリングを改善する。
  • 3つのベンチマークデータセットでの実験では、複数の指標において最先端または競争力のある性能が示され、著者らはGitHubリポジトリを通じてコードを提供している。

Abstract

マルチモーダル感情分析(MSA)では、計算効率を維持しつつ、モーダル間相互作用と文脈依存関係を効果的にモデリングすることが必要です。既存の融合アプローチは主にTransformerベースのモーダル間注意に依存しており、配列長に関して二次の計算量が発生するためスケーラビリティが制限されます。さらに、先行発話からの文脈情報は、連結や独立した融合によって取り込まれることが多いものの、対話ターンをまたいだ感情の推移を捉えるための明示的な時間的モデリングが欠けています。これらの制約に対処するため、我々は対話ベース感情分析のための、文脈対応型のゲート付きモーダル間MambaフレームワークであるCAGMambaを提案します。具体的には、文脈特徴と現在の発話特徴を時間順に並べたバイナリ系列として整理し、これによりMambaに感情の推移をモデリングするための明示的な時間構造を与えます。さらに、制御可能なモーダル間統合を可能にするために、学習可能なゲーティングを用いて情報融合とモダリティの保持のバランスを取ることで、モーダル間経路と単一モダリティ経路を統合するGated Cross-Modal Mamba Network(GCMN)を提案します。また、テキスト、音声、および融合予測に対する3分岐のマルチタスク目的で学習します。3つのベンチマークデータセットでの実験により、CAGMambaが複数の評価指標において最先端または競争力のある結果を達成することが示されます。すべてのコードは https://github.com/User2024-xj/CAGMamba で公開されています。