AI Navigate

双方向クロスアテンションと時系列モデリングによるマルチモーダル感情認識

arXiv cs.CV / 2026/3/13

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、ABAW EXPRタスクのためのマルチモーダル感情認識フレームワークを提案します。視覚エンコードにはCLIPを、音声にはWav2Vec 2.0を使用し、時系列ダイナミクスを捉えるためのTemporal Convolutional Networkを組み込みます。
  • 双方向クロスアテンション融合モジュールを特徴とし、視覚特徴と音声特徴の対称的な相互作用を可能にして、クロスモーダルの文脈理解を強化します。
  • CLIPのテキスト特徴に基づくテキスト誘導型対照学習の目的関数を導入します。
  • ABAW 10th EXPRベンチマークでの実験結果は、提案フレームワークが強力なマルチモーダルのベースラインを提供し、単一モダリティのモデリングより性能が向上することを示しています。実世界の環境における時系列視覚モデリング、音声表現学習、およびクロスモーダル融合を組み合わせることの利点を強調しています。
現実の野外動画データにおける感情認識は、顔の表情、頭部姿勢、照明、背景雑音、そして人間の感情の本質的にダイナミックな性質の大きなばらつきのため、依然として難しい問題です。表情や音声などの単一モダリティに依存するだけでは、これらの複雑な感情手掛かりを捉えるには不十分なことが多いです。この問題に対処するため、10回目のAffective Behavior Analysis in-the-wild (ABAW) ChallengeにおけるExpression (EXPR)認識タスクのためのマルチモーダル感情認識フレームワークを提案します。私たちのアプローチは、視覚エンコードにCLIP、音声表現学習にはWav2Vec 2.0を用い、それらを凍結したバックボーンネットワークとして活用します。顔の表情列の時系列依存性をモデル化するため、固定長のビデオウィンドウ上でTemporal Convolutional Network (TCN)を用います。さらに、双方向のクロスアテンション融合モジュールを導入し、視覚特徴と音声特徴が対称的に相互作用してクロスモーダルな文脈理解を強化し、補完的な感情情報を捉えます。その後、最終的な感情予測のための軽量な分類ヘッドを用います。さらに、CLIPのテキスト特徴に基づくテキスト誘導型対照学習の目的を組み込み、意味的に整合した視覚表現を促進します。ABAW 10th EXPRベンチマークでの実験結果は、提案されたフレームワークが強力なマルチモーダルベースラインを提供し、単一モダリティのモデリングより性能が改善されることを示しています。これらの結果は、時系列視覚モデリング、音声表現学習、クロスモーダル融合を組み合わせることが、制約の少ない実世界環境における堅牢な感情認識の有効性を示しています。