CAGMamba:マルチモーダル感情分析のためのコンテキスト認識型ゲート付きクロスモーダルMambaネットワーク
arXiv cs.CL / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、対話ベースのマルチモーダル感情分析(テキスト+音声)向けに、コンテキスト認識型のゲート付きクロスモーダルMambaネットワークであるCAGMambaを提案する。
- 二次計算量を持つTransformerによるクロスモーダル注意機構の代わりに、CAGMambaはMambaベースの設計を用い、コンテキストおよび現在の発話の特徴を時間順に並べた二値(binary)系列へ変換することで、明示的な時間構造を与える。
- さらに、学習可能なゲーティングによって融合の質とモダリティの保持のバランスをより良く取るため、クロスモーダル処理とユニモーダル処理を組み合わせたゲート付きクロスモーダルMambaネットワーク(GCMN)を追加する。
- モデルはテキスト、音声、融合予測にまたがる3分岐のマルチタスク目的で学習し、対話ターンをまたいだ感情の推移のモデリングを改善する。
- 3つのベンチマークデータセットでの実験では、複数の指標において最先端または競争力のある性能が示され、著者らはGitHubリポジトリを通じてコードを提供している。



